WO2024122206A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- WO2024122206A1 WO2024122206A1 PCT/JP2023/038130 JP2023038130W WO2024122206A1 WO 2024122206 A1 WO2024122206 A1 WO 2024122206A1 JP 2023038130 W JP2023038130 W JP 2023038130W WO 2024122206 A1 WO2024122206 A1 WO 2024122206A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- selection
- image
- information processing
- processing device
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
- B25J13/08—Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Definitions
- This technology relates to an information processing device, information processing method, and program that can be applied to picking by a robot arm.
- Patent Document 1 discloses a robot arm that picks up objects from random piles. This robot arm performs picking, and machine learning of the amount of arm movement is performed based on whether the picking is successful or not. This makes it possible for the robot arm to learn optimal movements without human intervention.
- the objective of this technology is to provide an information processing device, an information processing method, and a program that enable a robot arm or the like to perform a selection operation (picking) with high accuracy.
- an information processing device includes a first learning unit and a second learning unit.
- the first learning unit trains a machine learning model using at least one of first correct answer teacher data in which a first feature-reflecting image reflecting each of one or more features of a selection target that is the subject of a selection operation is associated with a correct answer label indicating that the selection operation was successful, and first incorrect answer teacher data in which a second feature-reflecting image reflecting each of one or more features of a non-selection target that is not the subject of the selection operation is associated with an incorrect answer label indicating that the selection operation was unsuccessful.
- the second learning unit trains the machine learning model trained by the first learning unit using second correct answer teacher data in which the correct answer label is associated with a selection image including the selection target and the non-selection target.
- At least one of correct answer teacher data in which an image reflecting the characteristics of the selection target is associated with a correct answer label indicating that the selection operation was successful, and incorrect answer teacher data in which an image reflecting the characteristics of a non-selection target is associated with an incorrect answer label indicating that the selection operation was unsuccessful, is used to train the machine learning model.
- correct answer teacher data in which a correct answer label is associated with images including a selection target and a non-selection target is used to train the machine learning model further. This makes it possible to perform the selection operation with high accuracy.
- the second learning unit may train the machine learning model trained by the first learning unit using second incorrect answer teacher data in which the incorrect answer label is associated with the selection image.
- the information processing device may further include a teacher data generation unit that generates the second correct teacher data by associating the correct label with the selection image used in the selection action when the selection action performed based on the selection image is successful, and generates the second incorrect teacher data by associating the incorrect label with the selection image used in the selection action when the selection action performed based on the selection image is unsuccessful.
- a teacher data generation unit that generates the second correct teacher data by associating the correct label with the selection image used in the selection action when the selection action performed based on the selection image is successful, and generates the second incorrect teacher data by associating the incorrect label with the selection image used in the selection action when the selection action performed based on the selection image is unsuccessful.
- the selection target may include a selection target object that is a target of the selection operation.
- the selection non-target may include at least one of a placement area in which the selection target object is placed and a selection non-target object that is not a target of the selection operation.
- the one or more characteristics of the selection object may include at least one of the color and pattern of the selection object.
- the first characteristic reflection image may include an image that expresses at least one of the color and pattern of the selection object.
- the first characteristic reflection image may include an image in which the color of the selection object is represented in its entirety.
- the one or more features of the non-selectable object may include at least one of the color and pattern of the non-selectable object.
- the second feature reflection image may include an image in which at least one of the color and pattern of the non-selectable object is expressed.
- the second feature reflecting image may include an image in which the non-selectable color is represented in the entire area.
- the first learning unit may train the machine learning model using the first correct answer teacher data in which the correct answer label is associated with each of multiple first feature-reflecting images that reflect the characteristics of the multiple selection objects.
- the first learning unit may train the machine learning model using the first incorrect teacher data in which the incorrect label is associated with each of multiple second feature-reflecting images that reflect the features of the multiple non-selection targets.
- the selection action may be an action of picking out the selection object using a robot arm.
- the information processing device may further include a reception unit that receives a user's input operation for creating at least one of the first feature reflecting image and the second feature reflecting image.
- the input operation may include at least one of specifying the gradation values of each of red, green, and blue, selecting a color using a color palette, and specifying a color using an eyedropper function.
- the selection operation may be performed based on an expected success rate calculated for each pixel of the selection image when the selection operation is performed at a position corresponding to the pixel.
- the selection action may be performed by combining the selection action at a position specified by the user and the selection action using the selection image.
- the selection action may be performed by combining the selection action at a random position and the selection action using the selection image.
- An information processing method includes the following steps.
- a first learning step trains a machine learning model using at least one of first correct teacher data in which a first feature-reflecting image reflecting each of one or more features of a selection target that is the subject of a selection operation is associated with a correct label indicating that the selection operation was successful, and first incorrect teacher data in which a second feature-reflecting image reflecting each of one or more features of a selection target that is not the subject of the selection operation is associated with an incorrect label indicating that the selection operation was unsuccessful.
- a program according to one embodiment of the present technology causes a computer system to execute the first learning step and the second learning step.
- FIG. 13 is a diagram showing a schematic diagram of a bulk picking process.
- FIG. 13 is a diagram showing a schematic diagram of a bulk picking process.
- FIG. 2 is a schematic diagram showing a configuration example of a robot arm and an information processing device.
- 13 is a flowchart showing an example of a picking process.
- FIG. 1 is a diagram illustrating a schematic diagram of calculation of a predicted success rate by a machine learning model.
- FIG. 13 is a diagram illustrating the contents of offline learning.
- 13 is a flowchart illustrating an example of an online learning process.
- FIG. 1 is a diagram showing a schematic diagram of the contents of online learning. 1 is a photograph of the workpiece and case used in the experiment.
- FIG. 1 is a diagram illustrating the contents of offline learning using the proposed method.
- FIG. 13 is a diagram showing a schematic diagram of the contents of offline learning not based on the proposed method. 13 is a graph showing experimental results. A heat map of predicted success rates.
- FIG. 1 is a diagram illustrating a learning state of a machine learning model. 11A to 11C are schematic diagrams of variations of feature reflecting images.
- FIG. 2 is a block diagram showing an example of a hardware configuration of a computer capable of realizing the information processing device.
- FIG. 1 is a diagram showing a schematic diagram of a bulk picking process. In this embodiment, bulk picking is performed by the robot arm 1.
- Picking is a term that refers to the action of picking up objects one by one, moving them to a designated position, and lining them up. For example, in a factory, objects are picked up as they travel along a conveyor and stored in designated containers. Picking of randomly stacked objects is sometimes called bulk picking.
- Figure 1 shows a schematic diagram of an example of bulk picking, in which an object 2 is picked up by a robot arm 1 and stored in a box 3. Of course, this is not limited to this, and the technology can be applied to any form of picking.
- picking there are no limitations on the objects to be picked; for example, parts or products handled in a factory can be the objects to be picked. There are also no limitations on how the objects are handled after they are picked. Any processing may be performed on the objects after they are picked, such as lining up parts in a designated location or placing products in a packaging container. Hereinafter, bulk picking may be referred to simply as picking.
- the robot arm 1 is, for example, a relatively compact collaborative robot. Alternatively, a large industrial robot may be used.
- the robot arm 1 has an arm 4, a camera 5, and a hand 6.
- the arm 4 is the base member of the robot arm 1, and the arm 4 is realized by connecting multiple members so that they can rotate and extend.
- a drive mechanism such as a motor is configured inside the arm 4, and the rotation and extension of the members are realized by this drive mechanism.
- FIG. 1 the rotation direction and extension direction of each member that configures the arm 4 are diagrammatically indicated by arrows.
- the arm 4 is made of a material having rigidity, such as metal.
- the specific configuration of the arm 4, such as the shape and material, and the direction and range in which each member can operate, is not limited.
- the camera 5 is positioned near the tip of the arm 4.
- the object 2 is imaged by the camera 5.
- a two-dimensional USB color camera is used as the camera 5.
- Any other type of camera 5, such as an infrared camera may be used.
- Any configuration may be employed, such as a configuration using multiple cameras 5, such as a stereo camera, a configuration in which a distance measuring sensor, such as a ToF (Time of Flight) sensor, a configuration in which lighting is provided to facilitate imaging, a configuration in which the camera is not placed on the arm 4 but takes images separately, etc.
- a distance measuring sensor such as a ToF (Time of Flight) sensor
- the hand 6 is connected to the tip of the arm 4.
- the object 2 is grasped by the hand 6.
- a commercially available electric gripper is used as the hand 6.
- the specific configuration of the hand 6, such as its type and gripping force, is not limited.
- the rotation and extension of the arm 4 are controlled, thereby controlling the position of the camera 5 and the position of the hand 6.
- the camera 5 captures an image of the surrounding area of the object 2, etc.
- the hand 6 can grasp the object 2 and store it in the box 3.
- the specific configuration of the robot arm 1 is not limited.
- a selection operation is executed.
- the selection operation is an operation of selecting some object.
- an operation (picking) of taking out an object 2 by a robot arm 1 corresponds to one embodiment of the selection operation according to the present technology.
- the selection operation is not limited to this, and also includes an operation that does not involve an actual operation by the robot arm 1, such as an operation in which the object 2 is simply selected by a computer.
- an operation other than picking for example, a pressing process, spraying of paint, etc.
- any operation of selecting an object is included in the selection operation.
- FIG. 2 is a diagram showing a schematic diagram of the bulk picking process.
- Fig. 2A shows, as an example of picking, a state in which objects 2 randomly stacked in a box 9 are picked up.
- Fig. 2B shows, as a schematic diagram, the objects 2 and the bottom surface 10 of the box 9 as viewed from above (the camera 5 and hand 6 side).
- the objects 2 are shown typically by dark gray rectangles.
- the bottom surface 10 is also shown typically by light gray rectangles.
- the actual shapes and colors of the objects 2 and the bottom surface 10 are not limited.
- the selection action is performed on a selection target that is the subject of the selection action.
- a selection target typically, when an object is selected and the selection action is successful, that object can be called a selection target.
- object 2 when object 2 is picked, the purpose of the picking is achieved and the picking is successful. Therefore, object 2 corresponds to one embodiment of a selection target according to the present technology.
- Non-selection targets are those that are not targets of the selection operation.
- the object can be called a non-selection target.
- the bottom surface 10 corresponds to one embodiment of a non-selection target related to the present technology.
- object 2 if an object that should not be picked is mixed in with object 2, the object can be said to be a non-selection target. There are no limitations on what specifically is a non-selection target, or on what criteria.
- the selection targets include selection target objects.
- Selection target objects are objects that are the subject of a selection operation.
- object 2 corresponds to one embodiment of a selection target object related to this technology.
- selection targets that are not objects do not fall under the category of selection target objects.
- this technology is also applicable to cases where the selection targets are not objects.
- the non-selection targets include at least one of a placement area and a non-selection target object.
- a placement area is an area in which a selection target object is placed.
- object 2 is placed on bottom surface 10 of box 9. Therefore, bottom surface 10 corresponds to one embodiment of a placement area according to the present technology. Also, for example, if object 2 is flowing on a conveyor, the surface of the conveyor becomes the placement area. There are no other limitations on what the placement area is specifically.
- a non-selection target object is an object that is not the target of a selection operation. For example, if an object that should not be picked is mixed in with objects 2, the object can be said to be a non-selection target object. Conversely, a non-selection target that is not an object does not fall under the category of a non-selection target object. There are no limitations on the specific types of non-selection target objects.
- the non-selection targets may include both the placement area and non-selection target objects. For example, if box 9 contains both object 2 to be picked and objects that should not be picked, object 2 is the selection target object (selection target), bottom surface 10 is the placement area (non-selection target), and the objects that should not be picked are non-selection target objects (non-selection target).
- FIG. 3 is a schematic diagram showing a configuration example of the robot arm 1 and an information processing device.
- the robot arm 1 has an arm 4, a camera 5, a hand 6, a drive mechanism 13, a control unit 14, and a communication unit 15.
- the control unit 14 controls the operation of the mechanism of the robot arm 1.
- the control unit 14 controls the drive of the drive mechanism 13 (motor, etc.), thereby realizing the rotation and extension of the arm 4.
- the control unit 14 also controls the imaging by the camera 5. Specifically, the imaging timing, imaging position, etc. are controlled.
- the control unit 14 also controls the drive of the hand 6, which causes the hand 6 to grasp the object 2.
- the contents of the control by the control unit 14 are not limited.
- the communication unit 15 is a communication module for communicating with other devices via a network such as a WAN or LAN.
- a communication module for short-range wireless communication such as Bluetooth (registered trademark) may be provided.
- a communication device such as a modem or a router may also be used.
- communication with the information processing device 16 is performed by the communication unit 15.
- the communication unit 15 is built into a predetermined position of the robot arm 1, for example. The specific configuration of the communication unit 15 is not limited.
- the information processing device 16 has a controller 17, a display unit 18, an operation unit 19, a communication unit 20, and a memory unit 21.
- the controller 17, the display unit 18, the operation unit 19, the communication unit 20, and the memory unit 21 are connected to each other via a bus 22.
- each block may be connected using a communication network or a unique non-standardized communication method, etc.
- the display unit 18 is a display device using, for example, liquid crystal, EL (Electro-Luminescence), or the like, and displays various images, various GUIs (Graphical User Interfaces), and the like.
- the operation unit 19 is, for example, a keyboard, a pointing device, a touch panel, or other operation device. If the operation unit 19 includes a touch panel, the touch panel may be integrated with the display unit 18. For example, a user who uses the information processing device 16 can configure settings related to the operation of the information processing device 16 via the operation unit 19.
- the communication unit 20 is a communication module for communicating with the robot arm 1. It may also be possible to communicate with devices other than the robot arm 1.
- the storage unit 21 is a storage device such as a non-volatile memory, and may be, for example, an HDD or SSD. Any other computer-readable non-transient storage medium may be used.
- the storage unit 21 stores a control program for controlling the overall operation of the information processing device 16. There is no limitation on the method for installing the control program in the information processing device 16. For example, the installation may be performed via various recording media, or the program may be installed via the Internet, etc.
- the controller 17 has hardware necessary for configuring a computer, such as processors such as a CPU, GPU, DSP, etc., memories such as ROM and RAM, and storage devices such as HDD.
- processors such as a CPU, GPU, DSP, etc.
- memories such as ROM and RAM
- storage devices such as HDD.
- the CPU loads a program related to the present technology, which is pre-recorded in a ROM or the like, into a RAM and executes it, thereby executing the information processing method related to the present technology.
- a PLD Programmable Logic Device
- FPGA Field Programmable Gate Array
- ASIC Application Specific Integrated Circuit
- the CPU of the controller 17 executes a program related to the present technology (e.g., an application program), thereby realizing the following functional blocks: an image acquisition unit 23, a predicted success rate calculation unit 24, a position determination unit 25, an offline learning unit 26, an online learning unit 27, a result acquisition unit 28, a teacher data generation unit 29, a reception unit 30, and a GUI output unit 31.
- a program related to the present technology e.g., an application program
- dedicated hardware such as an IC (integrated circuit) may be used as appropriate to realize each functional block.
- the image acquisition unit 23 acquires images captured by the camera 5 of the robot arm 1. Specifically, images are transmitted and received via the communication unit 15 of the robot arm 1 and the communication unit 20 of the information processing device 16, and the image acquisition unit 23 acquires the images.
- the predicted success rate calculation unit 24 calculates the predicted success rate of picking.
- the position determination unit 25 determines the position where picking will be performed.
- the offline learning unit 26 and the online learning unit 27 execute learning of a machine learning model related to the selection operation.
- the teacher data generation unit 29 generates teacher data used for learning. The specific contents of the processing by the predicted success rate calculation unit 24 and the position determination unit 25, and the learning by the offline learning unit 26, the online learning unit 27, and the teacher data generation unit 29 will be explained in detail later.
- the result acquisition unit 28 acquires information regarding the result of picking. For example, the result acquisition unit 28 acquires information indicating that picking was successful (success information) and information indicating that picking was unsuccessful (failure information).
- an encoder is placed in the hand 6, and the amount of closure of the hand 6 is detected by the encoder. Furthermore, whether or not the object 2 has been grasped is determined based on the detected amount of closure. If it is determined that the object 2 has been grasped, it is deemed that the picking has been successful, and success information is obtained by the result acquisition unit 28. On the other hand, if it is determined that the object 2 has not been grasped, it is deemed that the picking has failed, and failure information is obtained by the result acquisition unit 28. For example, success information and failure information are obtained in this manner.
- the color or pattern of the object 2 may be discriminated, and success information and failure information may be obtained based on the discrimination result.
- success information and failure information may be obtained based on the discrimination result.
- any information regarding the result of picking such as the size or weight of the picked object 2, may be obtained.
- the reception unit 30 receives the input operation. Specifically, information related to the input operation (such as a character string entered via the keyboard or a position clicked with the mouse) is acquired by the reception unit 30 as input information.
- the GUI output unit 31 generates a GUI (Graphical User Interface) to be used by the user and outputs it to the display unit 18.
- GUI Graphic User Interface
- the specific contents of the GUI output by the GUI output unit 31 will be explained in detail later. Otherwise, the specific configuration of the information processing device 16 is not limited.
- FIG. 4 is a flowchart showing an example of a picking process.
- a selection image is captured by the camera 5 of the robot arm 1 (step 101).
- the selection image is an image used for a selection operation. Specifically, an image including objects to be selected and objects not to be selected is captured as the selection image.
- an image in which the object 2 is placed on the bottom surface 10 is captured as the selection image. Since the object 2 is an object to be selected and the bottom surface 10 is a non-object to be selected, the image in which the object 2 is placed on the bottom surface 10 can be said to be an image including objects to be selected and objects not to be selected.
- the image captured by the camera 5 is controlled by the control unit 14.
- the range of the image captured by the camera 5 is not limited.
- the entire object 2 and bottom surface 10 shown in FIG. 2B may be captured, or only a partial range may be captured.
- the imaging range may be determined according to a predetermined criterion, or may be determined randomly. Alternatively, the imaging range may be determined by a trained machine learning model.
- capturing an image that includes selection targets and non-selection targets as a selection image includes capturing an image that includes selection targets and non-selection targets as a selection image.
- the captured selection image is acquired by the image acquisition unit 23 (step 102).
- the selection image is transmitted and received via the communication unit 15 of the robot arm 1 and the communication unit 20 of the information processing device 16, and the image is acquired by the image acquisition unit 23.
- an expected success rate is calculated (step 103).
- the expected success rate calculation unit 24 calculates, for each pixel of the selection image, an expected success rate when the selection action is performed on a position corresponding to the pixel.
- the predicted success rate is calculated for each pixel of the selection image (pixel by pixel), so information is generated that links a total of 76,800 pixels with the predicted success rate. For example, information such as "pixels: 160 rows/120 columns, predicted success rate: 50%" is generated. Alternatively, pixels may be grouped in a predetermined range, and the predicted success rate may be calculated for the grouped pixels. In this case, for example, the generated information is "pixels: 160-180 rows/120-140 columns, predicted success rate: 70%.” Of course, these pieces of information are merely examples, and other forms of information may be generated.
- the expected success rate is calculated as a predicted value for the success rate of a selection action when a selection action is performed at a real-space position corresponding to a pixel. For example, if position A in real space where object 2 is placed on bottom surface 10 is imaged and captured as the pixel at row X and column Y of the selection image, the real-space position corresponding to the pixel at row X and column Y is position A. Therefore, for the pixel at row X and column Y, the "predicted value for the success rate of picking when picking is performed at position A" is calculated as the expected success rate.
- the correspondence between pixel positions and real positions is calculated based on information such as the angle of view of the camera 5.
- a sensor that detects the attitude of the camera 5 may be used to calculate the angle of view of the camera 5.
- FIG. 5 is a diagram illustrating the calculation of a predicted success rate by a machine learning model.
- the predicted success rate is calculated by the trained machine learning model 32.
- the predicted success rate calculation unit 24 inputs a selection image 33 to the machine learning model 32.
- Fig. 5 shows a schematic diagram of the input selection image 33 (an image of the object 2 and a part of the bottom surface 10).
- the machine learning model 32 inputs the selection image 33 and outputs the predicted success rate. In this manner, the predicted success rate is calculated.
- the specific learning content of the machine learning model 32 will be explained in detail later.
- the position determination unit 25 determines the position where picking will be performed (step 104).
- the picking position is determined based on the expected success rate calculated by the expected success rate calculation unit 24. For example, among the pixels of the selection image, the pixel associated with the highest expected success rate is calculated, and the position corresponding to this pixel is determined as the picking position.
- the picking position may be determined based on any other criteria. Typically, the picking position is determined so as to increase the probability of successful picking.
- the picking position determined by the position determination unit 25 is transmitted to the control unit 14 of the robot arm 1 (step 105).
- real-world coordinate values such as "X: 100, Y: 200" are transmitted to the control unit 14.
- the picking position is transmitted and received via the communication unit 20 of the information processing device 16 and the communication unit 15 of the robot arm 1.
- Picking is performed by the robot arm 1 (step 106). Specifically, the control unit 14 controls the drive of the arm 4 and the hand 6 so that picking is performed at the picking position based on the acquired picking position. That is, the hand 6 extends to the picking position, and an operation is performed to attempt to grasp the item at the picking position.
- picking is performed based on the predicted success rate.
- picking may also be performed using a machine learning model by a method that does not involve the calculation of a predicted success rate.
- picking success or failure information may be acquired by the result acquisition unit 28.
- the specific contents of the picking process are not limited.
- FIG. 6 is a diagram showing the contents of offline learning.
- offline learning of the machine learning model 32 is performed.
- Offline learning is learning that does not involve actual operation of the robot arm 1.
- the offline learning unit 26 uses teacher data (correct answer data 35 and incorrect answer data 36) and executes learning based on a machine learning algorithm. Through learning, parameters (coefficients) for calculating the correct answer are updated and generated as learned parameters.
- a program incorporating the generated learned parameters is generated as the machine learning model 32.
- the learning method of the machine learning model 32 may be, for example, backpropagation.
- Backpropagation is a learning method commonly used for learning neural networks.
- a neural network is a model that originally imitates the neural circuits of the human brain, and has a layer structure consisting of three types of layers: an input layer, an intermediate layer (hidden layer), and an output layer.
- a neural network with many intermediate layers is particularly called a deep neural network, and the deep learning technology used to learn this is known as a model that can learn complex patterns hidden in large amounts of data.
- Backpropagation is one such learning method, and is often used, for example, in learning CNNs used to recognize images and videos.
- a neurochip/neuromorphic chip incorporating the concept of a neural network may be used as a hardware structure to realize this type of machine learning.
- the algorithm for training the machine learning model 32 is not limited, and any machine learning algorithm may be used.
- machine learning algorithms include supervised learning, unsupervised learning, semi-supervised learning, reinforcement learning, inverse reinforcement learning, active learning, and transfer learning.
- Supervised learning learns features based on given labeled training data (teacher data). This makes it possible to derive labels for unknown data.
- Unsupervised learning analyzes a large amount of unlabeled training data to extract features, and performs clustering based on the extracted features. This makes it possible to analyze trends and predict the future based on a large amount of unknown data.
- Semi-supervised learning is a mixture of supervised learning and unsupervised learning, and is a method in which features are learned by supervised learning, and then a large amount of training data is given by unsupervised learning, and learning is repeated while automatically calculating features.
- Reinforcement learning deals with the problem of an agent in an environment observing the current state and determining the action to be taken. The agent obtains rewards from the environment by selecting an action, and learns a strategy that will obtain the most rewards through a series of actions. In this way, by learning the optimal solution in a certain environment, it is possible to reproduce human judgment and allow a computer to acquire judgment skills that surpass those of humans.
- Machine learning models such as HMM (Hidden Markov Model) and SVM (Support Vector Machine) may also be used.
- the machine learning model 32 generated by the offline learning unit 26 is incorporated into the predicted success rate calculation unit 24 shown in FIG. 2.
- the predicted success rate calculation unit 24 then calculates the predicted success rate.
- FIG. 6A shows a schematic diagram of offline learning using correct answer data 35.
- Correct answer data 35 is information in which a color image 37 of object 2 and a correct answer label 38 are associated.
- an image that reflects the characteristics of the selection target is associated with the correct answer label 38.
- various characteristics of the selection object correspond to the characteristics of the selection object.
- an image displaying the color of the selection object, an image displaying the pattern, an image in which the size or weight value is expressed by letters or pictures, an image in which the type is expressed by letters, etc. correspond to images reflecting the characteristics of the selection object.
- an image reflecting the characteristics of the selection object may be referred to as a characteristic reflecting image.
- Color image 37 shown in FIG. 6A is an image displaying the color (dark gray) that is characteristic of object 2, and therefore corresponds to a characteristic reflecting image of the selection object (object 2).
- images that reflect features that are slightly different from the features of the selection target are also included in the feature-reflecting images.
- an image that reflects a color with a slightly different gradation value from the color of the selection target is also included in the feature-reflecting images that reflect the color of the selection target.
- the features reflected in the image such as the pattern, size, weight, etc., may be slightly different.
- Color image 37 corresponds to one embodiment of the first characteristic reflection image related to the present technology.
- the feature-reflecting image may include an image in which the color of the selection object is represented in the entire area.
- color image 37 is an image in which the color of object 2 is represented in the entire area. Note that, for example, a case in which the color of the selection object is not represented in some pixels of the feature-reflecting image, but is represented generally throughout, is also included in the color of the selection object being represented in the entire area. Also, a case in which the color represented in the entire area is slightly different from the color of the selection object is also included in the color of the selection object being represented in the entire area.
- the feature-reflecting image may be an image other than an image in which the color of the selection object is represented in the entire area.
- it may be an image in which the color of the selection object is represented in only a part of the area.
- any image in which the characteristics of the selection object are reflected may be associated with the correct answer label 38 as a feature-reflecting image.
- the correct answer label 38 information that the selection operation was successful is used. That is, in this embodiment, information that the picking was successful (success information) is used as the correct answer label 38 and is associated with the color image 37.
- the correct answer data 35 to which such color images 37 and correct answer labels 38 are associated, is used to train the machine learning model 32.
- the correct answer data 35 corresponds to one embodiment of the first correct answer teacher data related to the present technology.
- FIG. 6B shows a schematic diagram of the contents of offline learning using incorrect answer data 36.
- Incorrect answer data 36 is information that is associated with a color image 39 of the bottom surface 10 of the box 9 and an incorrect answer label 40.
- a feature-reflecting image that reflects the features of the non-selection target is associated with the correct answer label 38.
- Color image 39 is an image that displays the color (light gray) that is characteristic of the bottom surface 10, and therefore corresponds to a feature-reflecting image of the non-selection target (bottom surface 10).
- Color image 39 corresponds to one embodiment of a second feature-reflecting image related to the present technology.
- the feature reflecting image may include an image in which the color not subject to selection is represented in the entire area.
- color image 39 is also an image in which the color of bottom surface 10 is represented in the entire area.
- Information that the selection operation has failed is used as the incorrect label 40.
- information that the picking has failed (failure information) is used as the incorrect label 40, and is associated with the color image 39.
- the incorrect answer data 36 associated with such color images 39 and incorrect answer labels 40 is used to train the machine learning model 32.
- the incorrect answer data 36 corresponds to one embodiment of the first incorrect answer teacher data related to the present technology.
- offline learning may be performed using only either the correct answer data 35 or the incorrect answer data 36.
- the offline learning unit 26 corresponds to one embodiment of the first learning unit of the present technology. Furthermore, offline learning corresponds to one embodiment of the first learning step of the present technology.
- FIG. 7 is a flowchart showing an example of an online learning process.
- online learning is performed on the machine learning model 32.
- Online learning is learning that involves picking by the robot arm 1.
- the online learning is executed on the machine learning model 32 that has been trained by offline learning. That is, offline learning is performed first, and then online learning is performed.
- the selection image is captured and acquired (steps 201 and 202). These processes are similar to the processes in steps 101 and 102 shown in FIG. 4.
- the selection image is stored (step 203).
- the selection image is temporarily stored by the storage unit 21.
- the expected success rate is calculated, the picking location is determined, the picking location is transmitted, and the picking is performed (steps 204 to 207). These processes are the same as those in steps 103 to 106.
- step 208 If the picking is successful (Yes in step 208), success information is acquired by the result acquisition unit 28 (step 209).
- the teacher data generating unit 29 generates the correct answer data (step 210).
- FIG. 8 is a diagram showing the content of online learning. 8A illustrates correct answer data 43 generated by teacher data generating unit 29. In this embodiment, when a selection action executed based on selection image 33 is successful, teacher data generating unit 29 associates a correct answer label with selection image 33 used in the selection action, and generates correct answer data 43.
- the teacher data generating unit 29 associates the selection images 33 stored in the storage unit 21 with the success information acquired by the result acquiring unit 28, and generates correct answer data 43.
- the correct answer data 43 corresponds to one embodiment of the second correct answer teacher data related to the present technology.
- an image obtained by cutting out only the area around the location where the item was picked is associated with the success information. For example, if the item was picked at a location corresponding to "pixels: row 160/column 120," a 41 x 41 pixel image obtained by cutting out the area corresponding to "pixels: rows 140-180/columns 100-140" is associated with the success information, and correct answer data 43 is generated.
- the number of pixels in the image to be cut out is adjusted to match, for example, the size (number of pixels) of the object to be picked.
- an area is set with one side about 1.5 to 3 times the length of the object to be picked.
- the machine learning model 32 is trained using the supervised answer data 43 (step 211).
- the online learning unit 27 trains the machine learning model 32 trained by the offline learning unit 26 using the supervised answer data 43.
- the online learning unit 27 corresponds to an embodiment of the second learning unit of the present technology.
- the machine learning model 32 in FIG. 8 is a machine learning model that has been trained by offline learning.
- the machine learning model 32 in FIG. 8 corresponds to an embodiment of the machine learning model trained by the first learning unit of the present technology.
- failure information is acquired by the result acquisition unit 28 (step 212).
- the teacher data generating unit 29 generates incorrect answer data (step 213).
- 8B illustrates incorrect answer data 44 generated by teacher data generating unit 29.
- teacher data generating unit 29 associates an incorrect answer label with selection image 33 used in the selection action, and generates incorrect answer data 44.
- the teacher data generating unit 29 associates the selection images 33 stored in the storage unit 21 with the failure information acquired by the result acquiring unit 28, and generates incorrect answer data 44.
- the incorrect answer data 44 corresponds to one embodiment of the second incorrect answer teacher data related to the present technology.
- the machine learning model 32 is trained using the incorrect answer data 44 (step 214).
- the online learning unit 27 trains the machine learning model 32 trained by the offline learning unit 26 using the incorrect answer data 44.
- picking is performed by the robot arm 1, and if picking is successful, learning is performed using correct answer data 43 in which the selection image 33 is associated with a correct answer label 38 (success information). On the other hand, if picking is unsuccessful, learning is performed using incorrect answer data 44 in which the selection image 33 is associated with an incorrect answer label 40 (failure information).
- Online learning may be performed using only the correct answer data 43, without using the incorrect answer data 44. In other words, online learning may be performed in such a way that if picking is successful, learning is performed using the correct answer data 43, and if picking is unsuccessful, no learning is performed. There are no other limitations on the specific content of the online learning. Online learning corresponds to one embodiment of the second learning step according to the present technology.
- the correct answer data 35 in which the color image 37 of the object 2 is associated with the correct answer label 38 indicating that the picking was successful, and the incorrect answer data 36 in which the color image 39 of the bottom surface 10 is associated with the incorrect answer label 40 indicating that the selection operation was unsuccessful is used to train the machine learning model 32.
- the correct answer data 43 in which the correct answer label 38 is associated with the selection image 33 is used to train the machine learning model 32 further. This makes it possible to perform the selection operation with high accuracy.
- the versatility of a general-purpose robot means that programming and teaching its movements are complex. In other words, the technical difficulty of starting up is high. To solve this problem, the inventors have been considering an approach using machine learning. If a robot can learn tasks autonomously through trial and error, then only the bare minimum of programming and teaching is required at start-up, which can significantly reduce the skills and labor required for start-up.
- FIG. 9 is a photograph of the workpiece and case used in the experiment.
- white workpieces 47 confetti of about 8 mm size
- black case 48 was randomly placed in a black case 48 and picked.
- FIG. 10 is a diagram showing a schematic diagram of the contents of offline learning according to the proposed method.
- offline learning using the proposed method as shown in Figs. 10A and 10B, (1) Correct answer data 35 in which a correct answer label 38 (success information) is associated with a white image 51 (2) Incorrect data 36 in which the black image 52 is associated with an incorrect label 40 (failure information)
- the learning was carried out using the following.
- White image 51 is an image in which the entire area is white.
- Black image 52 is an image in which the entire area is black. Furthermore, the size of white image 51 and black image 52 is 61 x 61 pixels.
- 10 sets of correct answer data 35 were placed in an OK folder (a folder for storing correct answer data 35 for learning) and learning was performed. Additionally, 10 sets of incorrect answer data 36 were placed in an NG folder and learning was performed.
- Correct label 38 is associated with an image of white, which is the color of workpiece 47.
- Incorrect label 40 is associated with an image of black, which is the color of case 48.
- offline learning using the proposed method can be said to be teaching that is based on reality.
- offline learning using the proposed method may be described as "with proposed method.”
- FIG. 11 is a diagram showing a schematic diagram of the contents of offline learning that does not use the proposed method.
- offline learning without the proposed method as shown in FIGS. 11A and 11B, (1) Correct answer data 35 in which a correct answer label 38 (success information) is associated with a black image 52
- 10 sets of correct answer data 35 were placed in an OK folder and 10 sets of incorrect answer data 36 were placed in an NG folder, in the same manner as in the case with the proposed method, and learning was performed.
- Correct label 38 is associated with an image of black, which is the exact opposite color to the workpiece 47.
- Incorrect label 40 is associated with an image of white, which is the exact opposite color to the case 48.
- offline learning that does not use the proposed method can be said to be teaching the opposite of reality.
- offline learning that does not use the proposed method may be referred to as "without the proposed method.”
- a good machine learning model 32 (high calculation accuracy of the predicted success rate, high picking success rate) may be generated, or a bad machine learning model 32 (low calculation accuracy of the predicted success rate, low picking success rate) may be generated.
- a network similar to one that has been taught the opposite of reality may be generated, so it is expected that such a "worst machine learning model 32" will be generated without the proposed method.
- a machine learning model 32 with the proposed method and a machine learning model 32 without the proposed method were generated, and online learning was further performed on these machine learning models 32.
- the online learning involves picking up a workpiece 47 placed in a case 48 shown in FIG. 9. Note that the workpiece 47 is not always arranged in the state shown in FIG. 9, but is arranged differently each time it is picked.
- FIG. 12 is a graph showing the experimental results.
- the picking success rate in online learning when the machine learning model 32 with the proposed method is further trained online is plotted with a solid line.
- the horizontal axis is the number of trials, and the vertical axis is the picking success rate.
- the success rate is the average success rate of the past 100 trials (if the number of trials is less than 100, the success rate is calculated using the number of trials as the denominator).
- the picking success rate without the proposed method is plotted with a dashed line.
- the success rate is 0% for roughly the first 40 tries, and it takes a long time to get going. This is because successful cases cannot be accumulated in the early stages of learning, and learning does not progress. On the other hand, with the proposed method, successful cases can be accumulated with a certain frequency even in the early stages of learning, so the start-up is quick.
- FIG. 13 is a heat map of predicted success rates.
- Fig. 13 shows a heat map of the predicted success rate in online learning with and without the proposed method. The darker (closer to black) parts in the heat map indicate a higher predicted success rate, and the lighter (closer to white) parts indicate a lower predicted success rate.
- An epoch is the unit of the number of attempts to update learning, and in this experiment one epoch is 32 times.
- online learning is performed in the following procedure: the 1st to 32nd pickings are performed, the learning is updated, the 33rd to 64th pickings are performed, the learning is updated, and so on.
- the column for Epoch 3 shows a heat map when the 96th picking is completed and the learning is updated.
- learning may be updated each time a picking is performed.
- the column for epoch 0 shows a heat map of the predicted success rate output when a selection image 33 showing only a black case 48, without a white workpiece 47, was input to the machine learning model 32 immediately after offline learning had finished.
- the prediction success rate is low across the entire region of the selection image 33. This means that a correct prediction is made for the actual state (where only the black case 48 exists and the white workpiece 47 does not exist).
- the prediction success rate is high across the entire region. This means that an incorrect prediction is made for the actual state.
- the prediction success rate for the background part (case 48) is low from the start, and the prediction success rate for work 47 is high.
- the opposite prediction is made at first, and it can be seen that repeated learning was required before the correct prediction was made.
- the background part is darker without the proposed method than with the proposed method, and it can be seen that the success rate prediction is still influenced by the initial value.
- FIG. 14 is a diagram illustrating the learning state of the machine learning model 32.
- 14 shows a schematic diagram of the neural network 55 of the machine learning model 32.
- the neural network 55 is located at the top of FIG. 14 and the color is dark, it means that the calculation accuracy of the predicted success rate is high and the picking success rate is high.
- the neural network 55 is located at the bottom of FIG. 14 and the color is light, it means that the calculation accuracy of the predicted success rate is low and the picking success rate is low.
- an initial network 56 is prepared before online learning begins, and then a randomly sampled and collected dataset 57 is added to it and learning is repeated. The network is then updated (arrow 58), and finally a trained network 59 that matches the task is created.
- dataset 57 is a random sample, many trials (including failures) will be required to accumulate a sufficient number and variety of samples, and duplicate samples will be collected unnecessarily, resulting in poor sampling efficiency and long learning times.
- Transfer learning is a technique that uses a neural network created by training it on similar work.
- Elite selection is a technique that automatically selects the best neural network from among those created by training it on several types of work in the past, and sets it as the initial network.
- Color teaching is a method of the present technology. In other words, by using this technology, it is possible to generate an initial network 60 that is close to the final form, and learning efficiency is improved.
- Try position instruction is a method in which a human specifies (by clicking the mouse on the image, for example) several try locations (locations likely to be successful) and accumulates success cases.
- Policy selection is a modification of the sampling policy strategy, and is a method in which sampling is performed by mixing locations that are expected to be successful based on previous learning results, and random locations.
- (1) the method for devising the initial network 56 and (2) the method for devising the method for collecting the data set 57 may be used in combination. This makes it possible to further improve the efficiency of learning.
- a machine learning model 32 capable of calculating a predicted success rate with a certain degree of accuracy is created in advance through offline learning, and is used as the initial network for online learning that involves actual picking. Therefore, as shown in FIG. 12, it becomes easier to accumulate successful cases from the beginning in online learning, and learning can start up quickly. This makes it possible to achieve faster learning.
- the object 2 is included in the objects to be picked. Furthermore, the bottom surface 10 and objects that are not the target of the selection operation are included in the objects that are not the target of the picking operation. In other words, it is possible to pick the object 2 with high accuracy. Furthermore, the bottom surface 10 and objects that are not the target of the selection operation are less likely to be selected.
- an image in which the color of the object 2 is represented over the entire area, and an image in which the color of the bottom surface 10 is represented over the entire area are used for learning. This allows learning to be performed with high accuracy.
- the robot arm 1 performs a selection operation to pick up the object 2. In other words, picking can be performed with high precision.
- this technology calculates the expected success rate and performs picking based on the expected success rate. This improves the success rate of picking.
- FIG. 15 is a schematic diagram of variations of the feature reflecting image.
- FIG. 15 shows schematic examples of a background characteristic reflecting image 64 and a work characteristic reflecting image 65 in the following cases.
- the background color of the field in which the feature reflecting image 64 or 65 is illustrated is gray.
- teaching is not required when there are no candidates for the background or work features.
- each of the feature reflecting images 64 and 65 is one type of image.
- the example in Figure 6 corresponds to such a case.
- the background characteristic reflecting image 64 will be one color image, and multiple color images corresponding to the candidate work color will be the work characteristic reflecting image 65. For example, an image of red, an image of yellow, and an image of blue will be the work characteristic reflecting image 65.
- the color combinations are not limited to this.
- the work color may not be taught, and offline learning may be performed using only the background characteristic reflecting image 64.
- the workpiece characteristic reflection image 65 will be a one-color image, as in the case of (1-2).
- the background characteristic reflection image 64 will be a multiple-color image. Alternatively, offline learning will be performed without being taught the background color.
- both the background characteristic reflecting image 64 and the work characteristic reflecting image 65 will be images of multiple colors. Alternatively, it is not necessary to teach either the background or the work.
- the characteristics of the selection object include at least one of the color and pattern of the selection object. Furthermore, the image 65 reflecting the characteristics of the selection object includes an image expressing at least one of the color and pattern of the selection object.
- Images expressing the color of the selection object include, for example, images in which the entire area is that color, and images in which only a portion of the area is that color. Images in which the words “red” or “RED” are displayed are also included in images expressing color. Similarly, images in which the pattern of the selection object is expressed include images in which the entire area or only a portion of the area is that pattern, and images in which the words "polka dots" or similar are displayed.
- an image that expresses both color and pattern may be used, such as an image that displays a black and white striped pattern, or an image that displays the word "red” against a patterned background.
- an image that expresses both color and pattern may be used, such as an image that displays a black and white striped pattern, or an image that displays the word "red” against a patterned background.
- the non-selectable features include at least one of the non-selectable colors and patterns.
- the non-selectable feature reflection image 64 includes an image that expresses at least one of the non-selectable colors and patterns.
- images that express non-selectable colors or patterns include images in which the entire area is a non-selectable color or pattern, images in which colors or patterns are displayed using text, images in which colored patterns are displayed, etc. There are no other limitations on how non-selectable colors and patterns are expressed by the feature reflecting image 64.
- correct answer data 35 in which correct answer labels 38 are associated with multiple feature-reflecting images 65 that reflect the characteristics of the multiple selection targets is used, and the offline learning unit 26 learns the machine learning model 32.
- a "red workpiece” and a “polka dot workpiece” are prepared as feature reflecting images 65.
- the types of features of the multiple selection targets may be different.
- the characteristic reflecting images 65 may be prepared for only some of the selection objects. For example, when there are “red workpieces,” “yellow workpieces,” and “blue workpieces” as selection objects, only a “yellow image” and a “blue image” may be prepared. There are no limitations on what specific characteristic reflecting images 65 are prepared for multiple selection objects.
- the machine learning model 32 is trained by the offline learning unit 26 using incorrect answer data 36 in which an incorrect answer label 40 is associated with each of multiple feature-reflecting images 64 that reflect the features of the multiple non-selection targets.
- This technology can also be applied when multiple selection targets and multiple non-selection targets include features other than color and pattern.
- offline learning can be performed using four images as feature-reflecting images 64 and 65: "a red image,” “an image with a polka dot pattern,” “an image in which weight is represented by a picture,” and “an image in which the type of object is represented by text.”
- the user may create the feature reflecting image 65 to be selected and the feature reflecting image 64 to be not selected.
- the user can use a dedicated GUI to create the feature reflecting images 64 and 65 (setting colors, patterns, etc.).
- the GUI output unit 31 generates a GUI and outputs it to the display unit 18.
- the reception unit 30 also receives user input operations for creating the feature reflecting image 64 or 65.
- the input operation includes at least one of the following: specifying the gradation values of red, green, and blue, selecting a color using a color palette, and specifying a color using an eyedropper function.
- specifying the gradation values of red, green, and blue For example, when a user specifies a gradation value of red for the feature reflecting image 65 on the GUI, the specification of the gradation value is accepted by the accepting unit 30 as an input operation.
- information regarding the input operation (red gradation value) is generated as input information, and the input information (red gradation value) is reflected in the data of the feature reflecting image 65 being created, which is temporarily stored in the memory unit 21, for example.
- the gradation values are input as numbers.
- gradation values "R: 128, G: 0, B: 128" are input.
- the gradation values may be adjusted visually using a slider or the like.
- a desired color is selected from a palette in which various colors are arranged in a grid.
- a gradient palette with a gradation of colors may also be used.
- a color using the eyedropper function for example, a pixel in a captured image that shows a workpiece is specified, and the color of that pixel is eyedroppered. The eyedroppered color can then be reflected in the characteristic reflection image 65. Alternatively, a color may be eyedroppered from a simulated image of the workpiece.
- the color of the characteristic reflection image 65 may differ slightly from the actual color of the workpiece due to the human ability to recognize color. Also, when the eyedropper function is used, the color picked up may differ slightly from the actual color of the workpiece due to the way the light hits the workpiece. Even in such cases, the color of the workpiece is reflected in the characteristic reflection image 65.
- the feature reflecting images 64 and 65 may be created by trimming the images of the workpiece and background. For example, if the feature is a striped pattern, the stripes may become vertical or horizontal as the workpiece is rotated, and multiple images of these stripes may be set as the feature reflecting image 65.
- the GUI may also be capable of setting patterns and other features.
- input operations include not only designation of gradation values, etc., but also operations for reflecting arbitrary features in feature reflecting images 64 and 65.
- input operations include, for example, the user clicking a mouse on the GUI, inputting characters on a keyboard, etc.
- the selection action is performed by combining a selection action for a position specified by the user and a selection action using a selection image.
- the user can perform try position teaching by specifying a position on the GUI. Then, picking is performed alternately using each method, for example, try position teaching, normal method, try position teaching, etc.
- the order in which each method is used is not limited. Alternatively, each method may be used in a random order.
- policy selection a method in which a normal method and picking for random positions are used in combination
- policy selection may be used in picking in online learning.
- the selection operation is performed by combining a selection operation for a random position and a selection operation using a selection image. For example, picking by each method is performed alternately, such as picking at a random position, a normal method, picking at a random position, etc.
- picking by each method is performed alternately, such as picking at a random position, a normal method, picking at a random position, etc.
- the order in which each method is used is not limited.
- Some or all of the functions of the information processing device 16 shown in FIG. 3 may be mounted on the robot arm 1. Alternatively, a portable information processing device 16 may be used.
- the information processing device 16 may be realized by multiple computers or by a single computer.
- FIG. 16 is a block diagram showing an example of the hardware configuration of a computer 500 capable of realizing the information processing device 16.
- the computer 500 includes a CPU 501, a ROM 502, a RAM 503, an input/output interface 505, and a bus 504 that interconnects these components.
- a display unit 506, an input unit 507, a storage unit 508, a communication unit 509, a drive unit 510, and the like are connected to the input/output interface 505.
- the display unit 506 is a display device using, for example, liquid crystal, EL, or the like.
- the input unit 507 is, for example, a keyboard, a pointing device, a touch panel, or other operating device. When the input unit 507 includes a touch panel, the touch panel can be integrated with the display unit 506.
- the storage unit 508 is a non-volatile storage device, for example, a HDD, a flash memory, or other solid-state memory.
- the drive unit 510 is a device capable of driving a removable storage medium 511, for example, an optical storage medium, a magnetic recording tape, or the like.
- the communication unit 509 is a modem, a router, or other communication equipment that can be connected to a LAN, a WAN, or the like and is used to communicate with other devices.
- the communication unit 509 may communicate either wired or wirelessly.
- the communication unit 509 is often used separately from the computer 500.
- Information processing by computer 500 having the above hardware configuration is realized by software stored in storage unit 508 or ROM 502, etc., working in cooperation with the hardware resources of computer 500.
- the information processing method according to the present technology is realized by loading a program constituting the software stored in ROM 502, etc., into RAM 503 and executing it.
- the program is installed in the computer 500, for example, via a removable recording medium 511.
- the program may be installed in the computer 500 via a global network or the like. Any other non-transitory storage medium that can be read by the computer 500 may be used.
- Execution of the information processing method related to the present technology by a computer system includes both cases where, for example, learning of a machine learning model, selection operations, generation of training data, calculation of predicted success rates, and reception of input operations are performed by a single computer, and cases where each process is performed by a different computer. Furthermore, execution of each process by a specific computer includes having another computer execute part or all of the process and obtaining the results.
- the information processing method related to the present technology can also be applied to a cloud computing configuration in which a single function is shared and processed jointly by multiple devices via a network.
- expressions using "more than”, such as “greater than A” and “smaller than A”, are expressions that comprehensively include both concepts that include equivalent to A and concepts that do not include equivalent to A.
- “greater than A” is not limited to cases that do not include equivalent to A, but also includes “A or greater”.
- “smaller than A” is not limited to “less than A”, but also includes “A or less”.
- the present technology can also be configured as follows. (1) a first learning unit that trains a machine learning model using at least one of first correct answer teacher data in which a first feature reflection image reflecting each of one or more features of a selection target that is a target of a selection operation is associated with a correct answer label indicating that the selection operation is successful, and first incorrect answer teacher data in which a second feature reflection image reflecting each of one or more features of a selection target that is not a target of the selection operation is associated with an incorrect answer label indicating that the selection operation is unsuccessful; and a second learning unit that uses second correct answer teacher data in which the correct answer label is associated with a selection image including the selection target and the non-selection target to train the machine learning model trained by the first learning unit.
- the information processing device trains the machine learning model trained by the first learning unit using second incorrect teacher data in which the incorrect labels are associated with the selection images.
- the information processing device further comprising: an information processing device comprising: a teacher data generation unit that generates the second correct teacher data by associating the correct label with the selection image used in the selection action when the selection action performed based on the selection image is successful, and generates the second incorrect teacher data by associating the incorrect label with the selection image used in the selection action when the selection action performed based on the selection image is unsuccessful.
- the selection target includes a selection target object that is a target of the selection operation;
- the non-selection objects include at least one of a placement area in which the object to be selected is placed and non-selection objects that are not targets of the selection operation.
- the one or more characteristics of the selection object include at least one of a color and a pattern of the selection object;
- the information processing device, wherein the first characteristic reflecting image includes an image expressing at least one of a color and a pattern of the selection object.
- the information processing device according to (5), The information processing device, wherein the first feature reflecting image includes an image in which the color of the selection object is expressed in an entire area.
- An information processing device according to any one of (1) to (6),
- the one or more features of the non-selection target include at least one of a color and a pattern of the non-selection target
- the information processing device, wherein the second characteristic reflecting image includes an image expressing at least one of a color and a pattern of the non-selection target.
- the information processing device according to (7), The information processing device, wherein the second feature reflecting image includes an image in which the non-selection target color is expressed in an entire area.
- An information processing device according to any one of (1) to (8), The information processing device, wherein when a plurality of selection objects are present, the first learning unit trains the machine learning model using the first correct answer teacher data in which the correct answer label is associated with each of a plurality of first feature reflecting images that reflect features of the plurality of selection objects.
- the first learning unit when a plurality of non-selection targets exist, trains the machine learning model using the first incorrect teacher data in which the incorrect label is associated with each of a plurality of second feature reflecting images in which features of the plurality of non-selection targets are reflected.
- An information processing device according to any one of (1) to (10), The information processing device, wherein the selection action is an action of picking up the selection target by a robot arm.
- the information processing device according to any one of (1) to (11), further comprising: an information processing apparatus comprising: a reception unit configured to receive a user's input operation for generating at least one of the first feature reflecting image and the second feature reflecting image.
- the information processing device according to (12), The information processing device, wherein the input operation includes at least one of designating a gradation value of each of red, green, and blue, selecting a color using a color palette, and designating a color using an eyedropper function.
- the information processing device according to (3), The selection action is executed based on an expected success rate calculated for each pixel of the selection image when the selection action is executed at a position corresponding to the pixel.
- An information processing device according to any one of (1) to (14), The information processing device, wherein the selection action is executed by combining the selection action at a position designated by a user and the selection action using the selection image.
- An information processing device according to any one of (1) to (15), The information processing device, wherein the selection action is executed by combining the selection action at a random position and the selection action using the selection image.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mechanical Engineering (AREA)
- Robotics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Manipulator (AREA)
Abstract
本技術の一形態に係る情報処理装置は、第1の学習部と、第2の学習部とを具備する。前記第1の学習部は、選択動作の対象となる選択対象の1以上の特徴の各々が反映された第1の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第1の正解教師データ、及び前記選択動作の対象とならない選択非対象の1以上の特徴の各々が反映された第2の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第1の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる。前記第2の学習部は、前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第2の正解教師データを用いて、前記第1の学習部により学習された前記機械学習モデルを学習させる。
Description
本技術は、ロボットアームによるピッキングに適用可能な情報処理装置、情報処理方法、及びプログラムに関する。
特許文献1には、バラ積みされた物体の取り出し(ピッキング)を行うロボットアームについて開示されている。このロボットアームではピッキングが実行され、ピッキングが成功したか否かに基づいて、アームの動作量の機械学習が実行される。これにより、人間の介在なしにロボットアームの最適な動作を学習させることが可能となる。
ロボットアーム等による選択動作(ピッキング)を精度よく行うことを可能とする技術が求められている。
以上のような事情に鑑み、本技術の目的は、ロボットアーム等による選択動作(ピッキング)を精度よく行うことを可能とする情報処理装置、情報処理方法、及びプログラムを提供することにある。
上記目的を達成するため、本技術の一形態に係る情報処理装置は、第1の学習部と、第2の学習部とを具備する。
前記第1の学習部は、選択動作の対象となる選択対象の1以上の特徴の各々が反映された第1の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第1の正解教師データ、及び前記選択動作の対象とならない選択非対象の1以上の特徴の各々が反映された第2の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第1の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる。
前記第2の学習部は、前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第2の正解教師データを用いて、前記第1の学習部により学習された前記機械学習モデルを学習させる。
前記第1の学習部は、選択動作の対象となる選択対象の1以上の特徴の各々が反映された第1の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第1の正解教師データ、及び前記選択動作の対象とならない選択非対象の1以上の特徴の各々が反映された第2の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第1の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる。
前記第2の学習部は、前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第2の正解教師データを用いて、前記第1の学習部により学習された前記機械学習モデルを学習させる。
この情報処理装置では、選択対象の特徴が反映された画像に選択動作が成功した旨の正解ラベルが関連付けられた正解教師データ、及び選択非対象の特徴が反映された画像に選択動作が失敗した旨の不正解ラベルが関連付けられた不正解教師データの少なくとも一方が用いられ、機械学習モデルの学習が実行される。また、選択対象及び選択非対象を含む画像に正解ラベルが関連付けられた正解教師データが用いられ、機械学習モデルの更なる学習が実行される。これにより、選択動作を精度よく行うことが可能となる。
前記第2の学習部は、前記選択用画像に前記不正解ラベルが関連付けられた第2の不正解教師データを用いて、前記第1の学習部により学習された前記機械学習モデルを学習させてもよい。
前記情報処理装置は、さらに、前記選択用画像に基づいて実行された前記選択動作が成功した場合に前記選択動作に用いられた前記選択用画像に前記正解ラベルを関連付けて前記第2の正解教師データを生成し、前記選択用画像に基づいて実行された前記選択動作が失敗した場合に前記選択動作に用いられた前記選択用画像に前記不正解ラベルを関連付けて前記第2の不正解教師データを生成する教師データ生成部を具備してもよい。
前記選択対象は、前記選択動作の対象となる選択対象物体を含んでもよい。この場合、前記選択非対象は、前記選択対象物体が配置される配置領域、及び前記選択動作の対象とならない選択非対象物体の少なくとも一方を含んでもよい。
前記選択対象の前記1以上の特徴は、前記選択対象の色及び模様の少なくとも一方を含んでもよい。この場合、前記第1の特徴反映画像は、前記選択対象の色及び模様の少なくとも一方が表現された画像を含んでもよい。
前記第1の特徴反映画像は、前記選択対象の色が全領域に表現された画像を含んでもよい。
前記選択非対象の前記1以上の特徴は、前記選択非対象の色及び模様の少なくとも一方を含んでもよい。この場合、前記第2の特徴反映画像は、前記選択非対象の色及び模様の少なくとも一方が表現された画像を含んでもよい。
前記第2の特徴反映画像は、前記選択非対象の色が全領域に表現された画像を含んでもよい。
前記第1の学習部は、複数の選択対象が存在する場合、前記複数の選択対象の特徴が反映された複数の第1の特徴反映画像の各々に前記正解ラベルが関連付けられた前記第1の正解教師データを用いて前記機械学習モデルを学習させてもよい。
前記第1の学習部は、複数の選択非対象が存在する場合、前記複数の選択非対象の特徴が反映された複数の第2の特徴反映画像の各々に前記不正解ラベルが関連付けられた前記第1の不正解教師データを用いて前記機械学習モデルを学習させてもよい。
前記選択動作は、ロボットアームにより前記選択対象を取り出す動作であってもよい。
前記情報処理装置は、さらに、前記第1の特徴反映画像及び前記第2の特徴反映画像の少なくとも一方を作成するためのユーザの入力操作を受付ける受付部を具備してもよい。
前記入力操作は、赤色、緑色及び青色の各々の階調値の指定、色パレットによる色の選択、及びスポイト機能による色の指定の少なくとも1つを含んでもよい。
前記選択動作は、前記選択用画像の画素ごとに算出された、前記画素に対応する位置に対して前記選択動作を実行した場合の予想成功率に基づいて実行されてもよい。
前記選択動作は、ユーザにより指定された位置に対する前記選択動作、及び前記選択用画像を用いた前記選択動作が組み合わされることにより実行されてもよい。
前記選択動作は、ランダムな位置に対する前記選択動作、及び前記選択用画像を用いた前記選択動作が組み合わされることにより実行されてもよい。
本技術の一形態に係る情報処理方法は、以下のステップを具備する。
選択動作の対象となる選択対象の1以上の特徴の各々が反映された第1の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第1の正解教師データ、及び前記選択動作の対象とならない選択非対象の1以上の特徴の各々が反映された第2の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第1の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる第1の学習ステップ。
前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第2の正解教師データを用いて、前記第1の学習ステップで学習された前記機械学習モデルを学習させる第2の学習ステップ。
選択動作の対象となる選択対象の1以上の特徴の各々が反映された第1の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第1の正解教師データ、及び前記選択動作の対象とならない選択非対象の1以上の特徴の各々が反映された第2の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第1の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる第1の学習ステップ。
前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第2の正解教師データを用いて、前記第1の学習ステップで学習された前記機械学習モデルを学習させる第2の学習ステップ。
本技術の一形態に係るプログラムは、前記第1の学習ステップと、前記第2の学習ステップとをコンピュータシステムに実行させる。
以下、本技術に係る実施形態を、図面を参照しながら説明する。
[バラ積みピッキング]
図1は、バラ積みピッキングの様子を模式的に示す図である。
本実施形態では、ロボットアーム1によりバラ積みピッキングが行われる。
図1は、バラ積みピッキングの様子を模式的に示す図である。
本実施形態では、ロボットアーム1によりバラ積みピッキングが行われる。
ピッキングとは、物体を1つずつ取り出し所定の位置に移動させる、整列させるといった動作を意味する言葉である。例えば工場でコンベアに乗って流れてくる物体が取り出され、所定の容器に収納される。このうち特にランダムに積まれた物体に対するピッキングは、バラ積みピッキングと呼称されることがある。図1には、バラ積みピッキングの一例として、ロボットアーム1により物体2が取り出され、箱3に収納される様子が模式的に示されている。もちろんこれに限定されず、任意の形態のピッキングに対して本技術を適用可能である。
ピッキングの対象となる物体は限定されず、例えば工場で取り扱われる部品や商品が、ピッキングの対象となり得る。また取り出された物体がどのように取り扱われるかも限定されない。例えば部品を所定の場所に整列させる、商品を包装容器に配置する等、取り出された物体に対して任意の処理が行われてよい。以下、バラ積みピッキングを単にピッキングと記載する場合がある。
ロボットアーム1は、例えば比較的コンパクトな協働ロボットである。その他、大型の産業用ロボットが用いられてもよい。ロボットアーム1は、アーム4、カメラ5、及びハンド6を有する。アーム4はロボットアーム1の基体となる部材であり、複数の部材が回転や伸縮可能に接続されることでアーム4が実現される。例えばアーム4の内部にモータ等の駆動機構が構成され、当該駆動機構により部材の回転や伸縮が実現される。図1には、アーム4を構成する各々の部材の回転方向や伸縮方向が、矢印で模式的に示されている。アーム4は、例えば金属等の剛性を有する材料により構成される。もちろんアーム4の形状や材料、各々の部材が動作可能な方向や範囲等の具体的な構成は限定されない。
カメラ5は、アーム4の先端付近に配置される。本実施形態では、カメラ5により物体2が撮像される。カメラ5としては、例えば2次元USBカラーカメラが用いられる。その他、赤外線カメラ等の任意の種類のカメラ5が用いられてよい。またステレオカメラ等の複数台のカメラ5を用いた構成、ToF(Time of Flight)等の測距センサが併用される構成、撮像を容易にするために照明が配置される構成、カメラがアーム4に配置されず別撮りとなっている構成等、任意の構成が採用されてよい。
ハンド6は、アーム4の先端に接続される。本実施形態では、ハンド6により物体2が把持される。ハンド6としては、例えば市販の電動グリッパが用いられる。ハンド6の種類や把持力等の具体的な構成は限定されない。
本実施形態では、アーム4の回転や伸縮が制御されることにより、カメラ5の位置やハンド6の位置が制御される。これにより、カメラ5により物体2の周辺領域等が撮像される。また、ハンド6による物体2の把持、及び箱3への収納が可能となる。その他、ロボットアーム1の具体的な構成は限定されない。
[選択動作]
本実施形態では、選択動作が実行される。選択動作とは、何らかの物を選択する動作である。例えばロボットアーム1により物体2を取り出す動作(ピッキング)は、本技術に係る選択動作の一実施形態に相当する。これに限定されず、例えばコンピュータにより物体2が選択されるだけ等、ロボットアーム1による実際の動作を伴わない内容の動作も選択動作に含まれる。あるいは、選択された物体2に対してピッキング以外の動作(例えばプレス処理、塗料の噴射等)が行われてもよい。その他、物を選択する任意の動作が選択動作に含まれる。
本実施形態では、選択動作が実行される。選択動作とは、何らかの物を選択する動作である。例えばロボットアーム1により物体2を取り出す動作(ピッキング)は、本技術に係る選択動作の一実施形態に相当する。これに限定されず、例えばコンピュータにより物体2が選択されるだけ等、ロボットアーム1による実際の動作を伴わない内容の動作も選択動作に含まれる。あるいは、選択された物体2に対してピッキング以外の動作(例えばプレス処理、塗料の噴射等)が行われてもよい。その他、物を選択する任意の動作が選択動作に含まれる。
図2は、バラ積みピッキングの様子を模式的に示す図である。
図2Aには、ピッキングの一例として、箱9の中にランダムに積まれた物体2が取り出される様子が模式的に示されている。図2Bには、物体2及び箱9の底面10を上方側(カメラ5やハンド6側)から見た状態が模式的に示されている。図2Bには、物体2が濃いグレー色の四角形により模式的に示されている。また、底面10が薄いグレー色の四角形により模式的に示されている。もちろん物体2や底面10の実際の形状や色は限定されない。
図2Aには、ピッキングの一例として、箱9の中にランダムに積まれた物体2が取り出される様子が模式的に示されている。図2Bには、物体2及び箱9の底面10を上方側(カメラ5やハンド6側)から見た状態が模式的に示されている。図2Bには、物体2が濃いグレー色の四角形により模式的に示されている。また、底面10が薄いグレー色の四角形により模式的に示されている。もちろん物体2や底面10の実際の形状や色は限定されない。
選択動作は、選択動作の対象となる選択対象に対して行われる。典型的には、ある物が選択されることで選択動作が成功する場合に、当該物を選択対象ということが可能である。例えば図2に示す例では、物体2がピッキングされた場合に、ピッキングの目的が達成され、ピッキングが成功する。従って物体2は、本技術に係る選択対象の一実施形態に相当する。
その他、例えば工場で取り扱われる部品や商品等、選択動作の対象となる任意の物が選択対象となり得る。具体的にどのようなものが、どのような基準により選択対象となるかは限定されない。
また本実施形態では、選択動作における選択非対象が存在する。選択非対象とは、選択動作の対象とならないものである。典型的には、ある物が選択されることで選択動作が失敗する場合に、当該物を選択非対象ということが可能である。例えば底面10が選択された場合には、底面10に向かってハンド6が伸びていくが、そこには物体2が存在しないため、何も掴むことはできない。従って物体2がピッキングされることはなく、ピッキングは失敗する。すなわち、底面10は本技術に係る選択非対象の一実施形態に相当する。
また、物体2の中にピッキングされるべきでない物体が混ざっているような場合にも、当該物体は選択非対象であると言える。その他、具体的にどのようなものが、どのような基準により選択非対象となるかは限定されない。
また本実施形態では、選択対象に選択対象物体が含まれる。選択対象物体とは、選択動作の対象となる物体である。例えば物体2は、本技術に係る選択対象物体の一実施形態に相当する。逆に物体ではない選択対象は、選択対象物体には該当しない。選択対象物体の具体的な種類等は限定されない。もちろん、選択対象が物体ではない場合にも本技術は適用可能である。
また本実施形態では、選択非対象に配置領域、及び選択非対象物体の少なくとも一方が含まれる。配置領域とは、選択対象物体が配置される領域である。例えば図2に示す例では、物体2は箱9の底面10に配置されている。従って、底面10は本技術に係る配置領域の一実施形態に相当する。また例えば、物体2がコンベアに乗って流れてくるような場合には、コンベアの表面が配置領域となる。その他、配置領域が具体的にどのようなものであるかは限定されない。
選択非対象物体とは、選択動作の対象とならない物体である。例えば物体2の中にピッキングされるべきでない物体が混ざっているような場合には、当該物体は選択非対象物体であると言える。逆に物体ではない選択非対象は、選択非対象物体には該当しない。選択非対象物体の具体的な種類等は限定されない。
選択非対象に配置領域及び選択非対象物体の両方が含まれてもよい。例えば箱9にピッキングされるべき物体2、及びピッキングされるべきでない物体の両方が入っている場合には、物体2が選択対象物体(選択対象)、底面10が配置領域(選択非対象)、ピッキングされるべきでない物体が選択非対象物体(選択非対象)となる。
[情報処理装置]
図3は、ロボットアーム1及び情報処理装置の構成例を示す模式図である。
ロボットアーム1は、アーム4、カメラ5、ハンド6、駆動機構13、制御部14及び通信部15を有する。制御部14は、ロボットアーム1が有する機構の動作を制御する。例えば制御部14により駆動機構13(モータ等)の駆動が制御され、アーム4の回転や伸縮が実現される。また、制御部14によりカメラ5による撮像が制御される。具体的には、撮像のタイミングや撮像位置等が制御される。また、制御部14によりハンド6の駆動が制御され、ハンド6により物体2が把持される。その他、制御部14による制御の内容は限定されない。
図3は、ロボットアーム1及び情報処理装置の構成例を示す模式図である。
ロボットアーム1は、アーム4、カメラ5、ハンド6、駆動機構13、制御部14及び通信部15を有する。制御部14は、ロボットアーム1が有する機構の動作を制御する。例えば制御部14により駆動機構13(モータ等)の駆動が制御され、アーム4の回転や伸縮が実現される。また、制御部14によりカメラ5による撮像が制御される。具体的には、撮像のタイミングや撮像位置等が制御される。また、制御部14によりハンド6の駆動が制御され、ハンド6により物体2が把持される。その他、制御部14による制御の内容は限定されない。
通信部15は、WANやLAN等のネットワークを介して他のデバイスと通信するための通信モジュールである。Bluetooth(登録商標)等の近距離無線通信用の通信モジュールが備えられてもよい。またモデムやルータ等の通信機器が用いられてもよい。本実施形態では、通信部15により情報処理装置16との通信が行われる。通信部15は、例えばロボットアーム1の所定の位置に内蔵される。通信部15の具体的な構成は限定されない。
情報処理装置16は、コントローラ17、表示部18、操作部19、通信部20、及び記憶部21を有する。コントローラ17、表示部18、操作部19、通信部20、及び記憶部21は、バス22を介して相互に接続されている。バス22に代えて、通信ネットワークや規格化されていない独自の通信方式等を用いて、各ブロックが接続されてもよい。
表示部18は、例えば液晶、EL(Electro-Luminescence)等を用いた表示デバイスで
あり、種々の画像や種々のGUI(Graphical User Interface)等が表示される。
あり、種々の画像や種々のGUI(Graphical User Interface)等が表示される。
操作部19は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。操作部19がタッチパネルを含む場合、そのタッチパネルは表示部18と一体となり得る。例えば情報処理装置16を使用するユーザが、操作部19を介して情報処理装置16の動作に関する設定を行うことが可能である。
通信部20は、ロボットアーム1と通信を行うための通信モジュールである。また、ロボットアーム1以外の他の装置との通信が可能であってもよい。
記憶部21は、不揮発性メモリ等の記憶デバイスであり、例えばHDDやSSD等が用いられる。その他、コンピュータ読み取り可能な非一過性の任意の記憶媒体が用いられてよい。記憶部21には、情報処理装置16の全体の動作を制御するための制御プログラムが記憶される。制御プログラムを情報処理装置16にインストールする方法は限定されない。例えば、種々の記録媒体を介してインストールが実行されてもよいし、インターネット等を介してプログラムのインストールが実行されてもよい。
コントローラ17は、例えばCPU、GPU、DSP等のプロセッサ、ROMやRAM等のメモリ、HDD等の記憶デバイス等、コンピュータの構成に必要なハードウェアを有する。例えばCPUがROM等に予め記録されている本技術に係るプログラムをRAMにロードして実行することにより、本技術に係る情報処理方法が実行される。コントローラ17として、例えばFPGA(Field Programmable Gate Array)等のPLD(Programmable Logic Device)、その他ASIC(Application Specific Integrated Circuit)等のデバイスが用いられてもよい。
本実施形態では、コントローラ17のCPUが本技術に係るプログラム(例えばアプリケーションプログラム)を実行することで、機能ブロックとして、画像取得部23、予想成功率算出部24、位置決定部25、オフライン学習部26、オンライン学習部27、結果取得部28、教師データ生成部29、受付部30、及びGUI出力部31が実現される。なお各機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが適宜用いられてもよい。
画像取得部23は、ロボットアーム1のカメラ5により撮像された画像を取得する。具体的には、ロボットアーム1の通信部15及び情報処理装置16の通信部20を介して画像の送受信が行われ、画像取得部23による画像の取得が実現される。
予想成功率算出部24は、ピッキングの予想成功率を算出する。位置決定部25は、ピッキングが行われる位置を決定する。また、オフライン学習部26及びオンライン学習部27は、選択動作に関する機械学習モデルの学習を実行する。教師データ生成部29は、学習に用いられる教師データを生成する。予想成功率算出部24及び位置決定部25による処理、並びにオフライン学習部26、オンライン学習部27及び教師データ生成部29による学習の具体的な内容については、後に詳しく説明する。
結果取得部28は、ピッキングの結果に関する情報を取得する。例えば結果取得部28により、ピッキングが成功した旨の情報(成功情報)及びピッキングに失敗した旨の情報(失敗情報)が取得される。
例えばハンド6内にエンコーダが配置され、エンコーダによりハンド6の閉じ量が検出される。さらに、検出された閉じ量に基づいて物体2が把持されたか否かが判定される。物体2が把持されたと判定された場合には、ピッキングが成功したとみなされ、結果取得部28により成功情報が取得される。一方で、物体2が把持されていないと判定された場合には、ピッキングに失敗したとみなされ、結果取得部28により失敗情報が取得される。例えばこのようにして成功情報及び失敗情報が取得される。
物体2の色や模様が判別され、判別結果に基づいて成功情報及び失敗情報が取得されてもよい。その他、成功情報及び失敗情報を取得するための具体的な方法は限定されない。また成功情報や失敗情報に限定されず、例えばピッキングされた物体2の大きさや重さ等、ピッキングの結果に関する任意の情報が取得されてよい。
受付部30は、ユーザにより操作部19に対する入力操作が行われた場合に、当該入力操作を受け付ける。具体的には、入力操作に関する情報(キーボードにより入力された文字列、マウスによりクリックされた位置等)が、入力情報として受付部30により取得される。
GUI出力部31は、ユーザが使用するGUI(Graphical User Interface)を生成し、表示部18に出力する。GUI出力部31により出力されるGUIの具体的な内容については、後に詳しく説明する。その他、情報処理装置16の具体的な構成は限定されない。
[ピッキング]
図4は、ピッキングの処理例を示すフローチャートである。
ロボットアーム1のカメラ5により、選択用画像が撮像される(ステップ101)。選択用画像とは、選択動作のために用いられる画像である。具体的には、選択用画像として選択対象及び選択非対象を含む画像が撮像される。本実施形態では、選択用画像として物体2が底面10に配置された画像が撮像される。物体2は選択対象であり、底面10は選択非対象であるため、物体2が底面10に配置された画像は、選択対象及び選択非対象を含む画像であると言える。カメラ5による撮像は、制御部14により制御される。
図4は、ピッキングの処理例を示すフローチャートである。
ロボットアーム1のカメラ5により、選択用画像が撮像される(ステップ101)。選択用画像とは、選択動作のために用いられる画像である。具体的には、選択用画像として選択対象及び選択非対象を含む画像が撮像される。本実施形態では、選択用画像として物体2が底面10に配置された画像が撮像される。物体2は選択対象であり、底面10は選択非対象であるため、物体2が底面10に配置された画像は、選択対象及び選択非対象を含む画像であると言える。カメラ5による撮像は、制御部14により制御される。
カメラ5による撮像の範囲は限定されない。例えば図2Bに示す物体2及び底面10の全体が撮像されてもよいし、一部の範囲のみが撮像されてもよい。また撮像範囲が所定の基準により決定されてもよく、ランダムに決定されてもよい。あるいは、学習済みの機械学習モデルにより撮像範囲が決定されてもよい。
以下、物体2及び底面10の一部の範囲が撮像される場合を例として説明を行う。なおこの場合、たまたま物体2が写り込まず、底面10のみが写った選択用画像が撮像されることもあり得るが、このような撮像も選択対象及び選択非対象を含む選択用画像の撮像に含まれる。すなわち撮像の結果を問わず、選択対象及び選択非対象を含む画像が撮像されうる状況下で撮像が実行されることが、選択用画像として選択対象及び選択非対象を含む画像が撮像されることに含まれる。
撮像された選択用画像が、画像取得部23により取得される(ステップ102)。ロボットアーム1の通信部15及び情報処理装置16の通信部20を介して選択用画像の送受信が行われ、画像取得部23により画像が取得される。
[予想成功率の算出]
取得された選択用画像に基づいて、予想成功率が算出される(ステップ103)。本実施形態では、予想成功率算出部24により、選択用画像の画素ごとに、画素に対応する位置に対して前記選択動作を実行した場合の予想成功率が算出される。
取得された選択用画像に基づいて、予想成功率が算出される(ステップ103)。本実施形態では、予想成功率算出部24により、選択用画像の画素ごとに、画素に対応する位置に対して前記選択動作を実行した場合の予想成功率が算出される。
具体的には、例えば選択用画像が320×240ピクセルの画像である場合には、選択用画像の画素ごと(ピクセルごと)に予想成功率が算出されるため、合計で76800個の画素と予想成功率とが紐付けられた情報が生成される。例えば「画素:160行/120列、予想成功率:50%」といった情報が生成される。あるいは、画素が所定の範囲でグループ化され、グループ化された画素に対して予想成功率が算出されてもよい。この場合、例えば生成される情報は「画素:160~180行/120~140列、予想成功率:70%」といった情報となる。もちろんこれらの情報はあくまで一例であり、他の形態の情報が生成されてもよい。
予想成功率は、画素に対応する現実空間の位置に対して選択動作を実行した場合の、選択動作の成功率の予想値として算出される。例えば物体2が底面10に配置された現実空間上のある位置Aが撮像され、選択用画像のX行Y列の画素として写り込んだ場合には、X行Y列の画素に対応する現実空間の位置は位置Aとなる。従って、X行Y列の画素に対して、「位置Aに対してピッキングが実行された場合のピッキングの成功率の予想値」が、予想成功率として算出される。
典型的には、X行Y列の画素に物体2らしきものが写り込んだ場合には、位置Aに物体2が存在する確率が高いと判断され、位置Aに対してピッキングが実行された場合の成功率は高いと判断される。従って相対的に高い予想成功率が算出される。一方で、X行Y列の画素に底面10らしきものが写り込んだ場合には、位置Aに物体2が存在しない確率が高いと判断され、位置Aに対してピッキングが実行された場合の成功率は低いと判断される。従って相対的に低い予想成功率が算出される。
画素の位置及び現実の位置の対応関係は、例えばカメラ5の画角等の情報に基づいて算出される。カメラ5の画角等を算出するために、カメラ5の姿勢を検出するセンサが用いられてもよい。その他、画素の位置及び現実の位置の対応関係の具体的な算出方法は限定されない。
[機械学習モデル]
図5は、機械学習モデルによる予想成功率の算出を模式的に示した図である。
本実施形態では、学習済みの機械学習モデル32により予想成功率が算出される。具体的には図5に示すように、予想成功率算出部24により機械学習モデル32に対して選択用画像33が入力される。図5には、入力される選択用画像33(物体2及び底面10の一部の画像)が模式的に図示されている。
図5は、機械学習モデルによる予想成功率の算出を模式的に示した図である。
本実施形態では、学習済みの機械学習モデル32により予想成功率が算出される。具体的には図5に示すように、予想成功率算出部24により機械学習モデル32に対して選択用画像33が入力される。図5には、入力される選択用画像33(物体2及び底面10の一部の画像)が模式的に図示されている。
機械学習モデル32により、選択用画像33を入力として予想成功率が出力される。このようにして予想成功率の算出が実現される。なお、機械学習モデル32の具体的な学習の内容については後に詳しく説明する。
位置決定部25により、ピッキングが行われる位置が決定される(ステップ104)。本実施形態では、予想成功率算出部24により算出された予想成功率に基づいて、ピッキング位置が決定される。例えば選択用画像の画素のうち、最も高い予想成功率が紐付けられている画素が算出され、当該画素に対応する位置がピッキング位置として決定される。その他、任意の基準によりピッキング位置が決定されてよい。典型的には、ピッキングが成功する確率が高くなるようにピッキング位置が決定される。
位置決定部25により決定されたピッキング位置が、ロボットアーム1の制御部14に送信される(ステップ105)。例えば、「X:100、Y:200」といった現実世界の座標値が、制御部14に送信される。もちろん、ピッキング位置が具体的にどのような情報として送信されるかは限定されない。ピッキング位置の送受信は、情報処理装置16の通信部20及びロボットアーム1の通信部15を介して行われる。
ロボットアーム1によりピッキングが実行される(ステップ106)。具体的には制御部14により、取得されたピッキング位置に基づいて、ピッキング位置に対してピッキングが行われるように、アーム4やハンド6の駆動が制御される。すなわちピッキング位置にハンド6が伸びていき、ピッキング位置上で把持を試みる動作が実行される。
このように本実施形態では、予想成功率に基づいてピッキングが実行される。なお、予想成功率の算出を伴わない方法により、機械学習モデルを用いたピッキングが実行されてもよい。また例えばピッキングが行われた後に、結果取得部28によりピッキングの成功情報や失敗情報が取得されてもよい。その他、ピッキングに関する具体的な処理の内容は限定されない。
[オフライン学習]
図6は、オフライン学習の内容を模式的に示した図である。
本実施形態では、機械学習モデル32のオフライン学習が行われる。オフライン学習とは、ロボットアーム1の実際の動作を伴わない学習である。図6に示すように、オフライン学習部26により、教師データ(正解データ35及び不正解データ36)が用いられ、機械学習アルゴリズムに基づいて学習が実行される。学習により、正解を算出するためのパラメータ(係数)が更新され、学習済パラメータとして生成される。生成された学習済パラメータが組み込まれたプログラムが、機械学習モデル32として生成される。
図6は、オフライン学習の内容を模式的に示した図である。
本実施形態では、機械学習モデル32のオフライン学習が行われる。オフライン学習とは、ロボットアーム1の実際の動作を伴わない学習である。図6に示すように、オフライン学習部26により、教師データ(正解データ35及び不正解データ36)が用いられ、機械学習アルゴリズムに基づいて学習が実行される。学習により、正解を算出するためのパラメータ(係数)が更新され、学習済パラメータとして生成される。生成された学習済パラメータが組み込まれたプログラムが、機械学習モデル32として生成される。
機械学習モデル32の学習方法として、例えば誤差逆伝播法が用いられる。誤差逆伝播法は、ニューラルネットワークの学習のために一般的に良く利用される学習手法である。ニューラルネットワークとは、元々人間の脳神経回路を模倣したモデルであり、入力層、中間層(隠れ層)、出力層の3種類の層からなる層構造を持ったモデルである。多数の中間層を持つニューラルネットワークは特にディープニューラルネットワークと呼ばれ、これを学習するためのディープラーニング技術は、大量データの中に潜んでいる複雑なパターンを学習できるモデルとして知られている。誤差逆伝播法はこのような学習手法の1つであり、例えば、画像や動画の認識に用いられるCNNなどの学習によく用いられる。また、このような機械学習を実現するハードウェア構造としては、ニューラルネットワークの概念を組み込まれたニューロチップ/ニューロモーフィック・チップが用いられ得る。
機械学習モデル32を学習させるためのアルゴリズムは限定されず、任意の機械学習アルゴリズムが用いられてよい。例えば、機械学習アルゴリズムとして、教師あり学習、教師なし学習、半教師学習、強化学習、逆強化学習、能動学習、転移学習等が挙げられる。教師あり学習は、与えられたラベル付きの学習データ(教師データ)に基づいて特徴量を学習する。これにより、未知のデータのラベルを導くことが可能となる。教師なし学習は、ラベルが付いていない学習データを大量に分析して特徴量を抽出し、抽出した特徴量に基づいてクラスタリングを行う。これにより、膨大な未知のデータに基づいて傾向の分析や未来予測を行うことが可能となる。半教師学習は、教師あり学習と教師なし学習を混在させたものであって、教師あり学習で特徴量を学ばせた後、教師なし学習で膨大な訓練データを与え、自動的に特徴量を算出させながら繰り返し学習を行う方法である。強化学習は、ある環境内におけるエージェントが現在の状態を観測して取るべき行動を決定する問題を扱うものである。エージェントは、行動を選択することで環境から報酬を取得し、一連の行動を通じて報酬が最も多く得られるような方策を学習する。このように、ある環境における最適解を学習することで、人間の判断力を再現し、また、人間を超える判断力をコンピュータに習得させることが可能となる。また、HMM(Hidden Markov Model:隠れマルコフモデル)やSVM(Support Vector Machine)等の機械学習モデルが用いられてもよい。
オフライン学習部26により生成された機械学習モデル32は、図2に示す予想成功率算出部24に組み込まれる。そして予想成功率算出部24により、予想成功率の算出が実行される。
図6Aには、正解データ35を用いたオフライン学習の内容が模式的に示されている。正解データ35は、物体2の色画像37及び正解ラベル38が関連付けられた情報である。本実施形態では、正解ラベル38に対して、選択対象の特徴が反映された画像が関連付けられる。
例えば選択対象の色、模様、大きさ、重さ、硬さ、滑りやすさ、種類等の種々の特徴が、選択対象の特徴に該当する。また例えば、選択対象の色が表示された画像、模様が表示された画像、大きさや重さの値が文字や絵で表現された画像、種類が文字で表現された画像等が、選択対象の特徴が反映された画像に該当する。以下、選択対象の特徴が反映された画像を、特徴反映画像と記載する場合がある。図6Aに示す色画像37は、物体2の特徴である色(濃いグレー色)が表示された画像であるため、選択対象(物体2)の特徴反映画像に相当する。
なお、例えば選択対象の特徴とは多少異なる内容の特徴が反映された画像も、特徴反映画像に含まれる。例えば選択対象の色とは階調値が多少異なる色が反映された画像も、選択対象の色が反映された特徴反映画像に含まれる。その他、画像に反映される模様、大きさ、重さ等の特徴が多少異なっていてもよい。
選択対象の特徴が具体的にどのようなものであるかは限定されない。また、特徴反映画像に対して具体的にどのような形態で特徴が反映されるかについても限定されない。色画像37は、本技術に係る第1の特徴反映画像の一実施形態に相当する。
さらに、特徴反映画像に、選択対象の色が全領域に表現された画像が含まれてもよい。本例においても、色画像37は、物体2の色が全領域に表現された画像となっている。なお、例えば特徴反映画像のうち一部の画素に選択対象の色が表現されていないが、概ね全体に渡って選択対象の色が表現されているような場合も、選択対象の色が全領域に表現されていることに含まれる。また、全領域に表現された色が選択対象の色と多少異なっている場合も、選択対象の色が全領域に表現されていることに含まれる。
もちろん特徴反映画像は、選択対象の色が全領域に表現された画像以外の画像であってもよい。例えば選択対象の色が一部だけに表現された画像であってもよい。その他、選択対象の特徴が反映された任意の画像が、特徴反映画像として正解ラベル38に関連付けられてよい。
正解ラベル38としては、選択動作が成功した旨の情報が用いられる。すなわち本実施形態では、正解ラベル38としてピッキングに成功した旨の情報(成功情報)が用いられ、色画像37に関連付けられる。
このような色画像37及び正解ラベル38が関連付けられた正解データ35が用いられ、機械学習モデル32の学習が実行される。正解データ35は、本技術に係る第1の正解教師データの一実施形態に相当する。
図6Bには、不正解データ36を用いたオフライン学習の内容が模式的に示されている。不正解データ36は、箱9の底面10の色画像39、及び不正解ラベル40が関連付けられた情報である。本実施形態では、正解ラベル38に対して、選択非対象の特徴が反映された特徴反映画像が関連付けられる。色画像39は、底面10の特徴である色(薄いグレー色)が表示された画像であるため、選択非対象(底面10)の特徴反映画像に相当する。色画像39は、本技術に係る第2の特徴反映画像の一実施形態に相当する。
さらに、特徴反映画像に、選択非対象の色が全領域に表現された画像が含まれてもよい。本例においても、色画像39は、底面10の色が全領域に表現された画像となっている。
不正解ラベル40としては、選択動作が失敗した旨の情報が用いられる。すなわち本実施形態では、不正解ラベル40としてピッキングに失敗した旨の情報(失敗情報)が用いられ、色画像39に関連付けられる。
このような色画像39及び不正解ラベル40が関連付けられた不正解データ36が用いられ、機械学習モデル32の学習が実行される。不正解データ36は、本技術に係る第1の不正解教師データの一実施形態に相当する。
なお、正解データ35又は不正解データ36のいずれか一方のみが用いられ、オフライン学習が行われてもよい。オフライン学習部26は、本技術に係る第1の学習部の一実施形態に相当する。またオフライン学習は、本技術に係る第1の学習ステップの一実施形態に相当する。
[オンライン学習]
図7は、オンライン学習の処理例を示すフローチャートである。
本実施形態では、機械学習モデル32のオンライン学習が行われる。オンライン学習とは、ロボットアーム1によるピッキングを伴う学習である。オンライン学習は、オフライン学習により学習された機械学習モデル32に対して実行される。すなわちオフライン学習が先に行われ、その後にオンライン学習が行われる。
図7は、オンライン学習の処理例を示すフローチャートである。
本実施形態では、機械学習モデル32のオンライン学習が行われる。オンライン学習とは、ロボットアーム1によるピッキングを伴う学習である。オンライン学習は、オフライン学習により学習された機械学習モデル32に対して実行される。すなわちオフライン学習が先に行われ、その後にオンライン学習が行われる。
選択用画像の撮像、取得が行われる(ステップ201及び202)。これらの処理は、図4に示すステップ101及び102の処理と同様である。
選択用画像が記憶される(ステップ203)。記憶部21により、選択用画像が一時的に記憶される。
予想成功率の算出、ピッキング位置の決定、ピッキング位置の送信、ピッキングが実行される(ステップ204~207)。これらの処理は、ステップ103~106の処理と同様である。
ピッキングに成功した場合には(ステップ208のYes)、結果取得部28により成功情報が取得される(ステップ209)。
教師データ生成部29により、正解データが生成される(ステップ210)。
図8は、オンライン学習の内容を模式的に示した図である。
図8Aには、教師データ生成部29により生成される正解データ43が図示されている。本実施形態では教師データ生成部29により、選択用画像33に基づいて実行された選択動作が成功した場合に、選択動作に用いられた選択用画像33に正解ラベルが関連付けられ、正解データ43が生成される。
図8は、オンライン学習の内容を模式的に示した図である。
図8Aには、教師データ生成部29により生成される正解データ43が図示されている。本実施形態では教師データ生成部29により、選択用画像33に基づいて実行された選択動作が成功した場合に、選択動作に用いられた選択用画像33に正解ラベルが関連付けられ、正解データ43が生成される。
具体的には教師データ生成部29により、記憶部21に記憶された選択用画像33及び結果取得部28により取得された成功情報が関連付けられ、正解データ43が生成される。正解データ43は、本技術に係る第2の正解教師データの一実施形態に相当する。
なお本実施形態では、記憶部21に記憶された選択用画像33のうち、ピッキングしに行った場所周辺のみを切り抜いた画像が、成功情報に関連付けられる。例えば「画素:160行/120列」に相当する位置へピッキングしに行った場合は、「画素:140~180行/100~140列」に相当する部分を切り抜いた41×41画素の画像が成功情報に関連付けられ、正解データ43が生成される。
切り抜かれる画像の画素数は、例えばピッキング対象物の大きさ(画素数)に合わせて調整される。通常、ピッキング対象物の1.5~3倍程度の長さを一辺とする領域が設定される。
正解データ43により、機械学習モデル32の学習が実行される(ステップ211)。本実施形態ではオンライン学習部27により、正解データ43を用いて、オフライン学習部26により学習された機械学習モデル32が学習される。オンライン学習部27は、本技術に係る第2の学習部の一実施形態に相当する。また、図8の機械学習モデル32は、オフライン学習により学習済の機械学習モデルである。図8の機械学習モデル32は、本技術に係る、第1の学習部により学習された機械学習モデルの一実施形態に相当する。
ピッキングに失敗した場合には(ステップ208のNo)、結果取得部28により失敗情報が取得される(ステップ212)。
教師データ生成部29により、不正解データが生成される(ステップ213)。
図8Bには、教師データ生成部29により生成される不正解データ44が図示されている。本実施形態では教師データ生成部29により、選択用画像33に基づいて実行された選択動作が失敗した場合に、選択動作に用いられた選択用画像33に不正解ラベルが関連付けられ、不正解データ44が生成される。
図8Bには、教師データ生成部29により生成される不正解データ44が図示されている。本実施形態では教師データ生成部29により、選択用画像33に基づいて実行された選択動作が失敗した場合に、選択動作に用いられた選択用画像33に不正解ラベルが関連付けられ、不正解データ44が生成される。
具体的には教師データ生成部29により、記憶部21に記憶された選択用画像33及び結果取得部28により取得された失敗情報が関連付けられ、不正解データ44が生成される。不正解データ44は、本技術に係る第2の不正解教師データの一実施形態に相当する。
この場合も正解データ43の生成と同様に、記憶部21に記憶された選択用画像33のうち、ピッキングしに行った場所周辺のみを切り抜いた画像が失敗情報に関連付けられ、不正解データ44が生成される。
不正解データ44により、機械学習モデル32の学習が実行される(ステップ214)。本実施形態ではオンライン学習部27により、不正解データ44を用いて、オフライン学習部26により学習された機械学習モデル32が学習される。
このようにオンライン学習では、ロボットアーム1によるピッキングが実行され、ピッキングが成功した場合には、選択用画像33に正解ラベル38(成功情報)が関連付けられた正解データ43により学習が行われる。一方で、ピッキングに失敗した場合には、選択用画像33に不正解ラベル40(失敗情報)が関連付けられた不正解データ44により学習が行われる。
なお不正解データ44が用いられずに、正解データ43のみを用いたオンライン学習が行われてもよい。すなわち、ピッキングに成功した場合には正解データ43を用いた学習が行われ、ピッキングに失敗した場合には学習が行われない、といった方法でオンライン学習が行われてもよい。その他、オンライン学習の具体的な内容は限定されない。オンライン学習は、本技術に係る第2の学習ステップの一実施形態に相当する。
以上、本実施形態に係る情報処理装置16では、物体2の色画像37にピッキングが成功した旨の正解ラベル38が関連付けられた正解データ35、及び底面10の色画像39に選択動作が失敗した旨の不正解ラベル40が関連付けられた不正解データ36の少なくとも一方が用いられ、機械学習モデル32の学習が実行される。また、選択用画像33に正解ラベル38が関連付けられた正解データ43が用いられ、機械学習モデル32の更なる学習が実行される。これにより、選択動作を精度よく行うことが可能となる。
近年のロボット技術の発展に伴い、生産現場でもロボットによる自動化が急速に拡大している。そして将来的にも、新興国における賃金上昇、多品種少量生産への移行、少子高齢化による労働力不足に加え、感染性ウイルスの流行などの影響により、自動化の傾向はますます強まるものと思われる。
こうした背景において、付加価値の低い作業をロボットに任せることができれば、人間はより複雑で付加価値の高い作業に従事できるようになり、限られたリソースの中で生産性を向上させることができる。
一方で、特定の作業あるいはプロセスに特化して設計された専用装置とは異なり、汎用のロボットは、その汎用性がゆえに動作のプログラミングやティーチングなどが複雑なものとなる。つまり、立ち上げの際の技術的難易度が高い。この問題を解決するため、発明者は、機械学習を用いたアプローチを検討してきた。ロボットが自律的に試行錯誤を行って作業を学習していけば、立ち上げ時に必要なプログラミングやティーチングは必要最小限のもののみで済み、立ち上げに必要なスキルや工数を大幅に削減することができる。
一方で、世の中の最先端技術を見ても、現状の技術では、ロボットマニピュレーションにおける機械学習の汎化性能は期待されているほど高くはなく、タスク毎に学習が必要になる場合がほとんどである。そのため、いかに有効な学習サンプルを効率良く収集し、学習を高速化するかが重要となる。
バラ積みピッキングという作業ひとつを見ても、ワークの形状や色、硬さ、重さ、滑りやすさ、さらには供給形態や共連れのしやすさ等に応じて学習のさせ方をエンジニアが工夫し、学習の「お膳立て」をすることが必要なのが実情である。つまり、現状の技術では、機械学習の汎化性能はそれほど高くはなく、特定のワークで学習させた学習結果でカバーできる範囲は非常に限られている。別の言い方をすれば、様々なワークに広く対応できるオールマイティな学習を行おうとすれば、非常に長い学習時間(特に、十分な量とバリエーションの学習サンプルを収集するための時間)が必要となる。また、オールマイティな学習では個別のワークに対する成功率はあまり上がらない。
従って、基本的にはワークの種類の数だけ個別に学習する必要があるので、各ワークをいかに速く学習させるかがポイントとなる。そのためには、学習前に事前知識を与えるなどして、無駄なサンプルの収集を避け、できるだけ有効なサンプルを効率良く収集することが重要となる。
[実験]
発明者は、本技術の効果を確認するため、学習速度の比較実験を行った。
図9は、実験に用いたワーク及びケースの写真である。
本実験では、白いワーク47(8mm程度のサイズの金平糖)を黒いケース48の中にランダムに入れ、ピッキングを行った。
発明者は、本技術の効果を確認するため、学習速度の比較実験を行った。
図9は、実験に用いたワーク及びケースの写真である。
本実験では、白いワーク47(8mm程度のサイズの金平糖)を黒いケース48の中にランダムに入れ、ピッキングを行った。
図10は、提案手法によるオフライン学習の内容を模式的に示した図である。
提案手法によるオフライン学習では、図10A及びBに示すように、
(1)白画像51に正解ラベル38(成功情報)が関連付けられた正解データ35
(2)黒画像52に不正解ラベル40(失敗情報)が関連付けられた不正解データ36
を用いて、学習を行った。
提案手法によるオフライン学習では、図10A及びBに示すように、
(1)白画像51に正解ラベル38(成功情報)が関連付けられた正解データ35
(2)黒画像52に不正解ラベル40(失敗情報)が関連付けられた不正解データ36
を用いて、学習を行った。
白画像51は全領域が白色の画像である。黒画像52は全領域が黒色の画像である。また、白画像51及び黒画像52のサイズは61×61ピクセルである。提案手法によるオフライン学習では、正解データ35を10セット分OKフォルダ(学習のための正解データ35の格納フォルダ)に入れ、学習を行った。また、不正解データ36を10セット分NGフォルダに入れ、学習を行った。
正解ラベル38には、ワーク47の色である白色の画像が関連付けられている。また不正解ラベル40には、ケース48の色である黒色の画像が関連付けられている。すなわち提案手法によるオフライン学習は、現実に即した教示であると言える。以下、提案手法によるオフライン学習を、「提案手法有り」と記載する場合がある。
図11は、提案手法によらないオフライン学習の内容を模式的に示した図である。
提案手法によらないオフライン学習では、図11A及びBに示すように、
(1)黒画像52に正解ラベル38(成功情報)が関連付けられた正解データ35
(2)白画像51に不正解ラベル40(失敗情報)が関連付けられた不正解データ36
を用いて、提案手法有りと同様に、正解データ35を10セット分OKフォルダ、不正解データ36を10セット分NGフォルダに入れ、学習を行った。
提案手法によらないオフライン学習では、図11A及びBに示すように、
(1)黒画像52に正解ラベル38(成功情報)が関連付けられた正解データ35
(2)白画像51に不正解ラベル40(失敗情報)が関連付けられた不正解データ36
を用いて、提案手法有りと同様に、正解データ35を10セット分OKフォルダ、不正解データ36を10セット分NGフォルダに入れ、学習を行った。
正解ラベル38には、ワーク47の色と真逆の色である黒色の画像が関連付けられている。また不正解ラベル40には、ケース48の色と真逆の色である白色の画像が関連付けられている。すなわち提案手法によらないオフライン学習は、現実と反対の教示であると言える。以下、提案手法によらないオフライン学習を、「提案手法無し」と記載する場合がある。
例えばランダムに機械学習モデル32が生成された場合、良い(予想成功率の算出精度が高く、ピッキングの成功率が高い)機械学習モデル32が生成されることもあれば、悪い(予想成功率の算出精度が低く、ピッキングの成功率が低い)機械学習モデル32が生成されることもあり得る。最悪の場合には、現実とは反対の教示を行ったのと同様のネットワークが生成されることもあるため、提案手法無しではそのような「最悪の機械学習モデル32」が生成されることを想定している。
このように、提案手法有りの機械学習モデル32、及び提案手法無しの機械学習モデル32を生成し、これらの機械学習モデル32に対してさらにオンライン学習を行った。オンライン学習は、図9に示すケース48に入ったワーク47をピッキングするものである。なお、ワーク47は常に図9に示す状態で配置されているわけではなく、ピッキングの度に毎回異なる配置となる。
図12は、実験結果を示すグラフである。
図12には、提案手法有りの機械学習モデル32をさらにオンライン学習させた場合の、オンライン学習におけるピッキング成功率が実線でプロットされている。横軸は試行回数、縦軸はピッキング成功率である。なお、成功率は過去100回の平均成功率である(試行回数が100回未満の場合は、試行回数を分母とした成功率)。また、提案手法無しのピッキング成功率が破線でプロットされている。
図12には、提案手法有りの機械学習モデル32をさらにオンライン学習させた場合の、オンライン学習におけるピッキング成功率が実線でプロットされている。横軸は試行回数、縦軸はピッキング成功率である。なお、成功率は過去100回の平均成功率である(試行回数が100回未満の場合は、試行回数を分母とした成功率)。また、提案手法無しのピッキング成功率が破線でプロットされている。
提案手法無しの場合、概ね40回目までは成功率が0%であり、立ち上がりまでに時間がかかっている。これは学習初期の段階で成功事例を蓄積することができず、学習が進まないためである。一方で提案手法有りの場合、学習初期の段階でもある程度の頻度で成功事例を蓄積できるため立ち上がりが速い。
この立ち上がりのタイミングの差が大きく影響し、成功率80%(図12の破線)に到達するまでの時間を見ても、提案手法有りの方が速いことが分かる。このことから、提案手法有りの有効性が確認できる。
図13は、予想成功率のヒートマップである。
図13には、提案手法有り及び提案手法無しのオンライン学習における予想成功率のヒートマップが示されている。ヒートマップ中の色が濃い(黒色に近い)部分は予想成功率が高いことを意味しており、色が薄い(白色に近い)部分は予想成功率が低いことを意味している。
図13には、提案手法有り及び提案手法無しのオンライン学習における予想成功率のヒートマップが示されている。ヒートマップ中の色が濃い(黒色に近い)部分は予想成功率が高いことを意味しており、色が薄い(白色に近い)部分は予想成功率が低いことを意味している。
エポック(Epoch)は学習を更新する試行回数の単位であり、本実験では1エポックを32回としている。すなわち、1回目~32回目のピッキングを行い、学習を更新し、33回目~64回目のピッキングを行い、学習を更新し、・・・という手順でオンライン学習が実行される。例えばエポック3の欄には、96回目のピッキングが終了し、学習が更新された時のヒートマップが図示されている。もちろんオンライン学習における学習のタイミングは限定されない。例えばピッキングの都度、1回ごとに学習が更新されてもよい。
なおエポック0の欄には、オフライン学習が終了した直後の機械学習モデル32に対して、白いワーク47を投入せず黒いケース48のみが写った選択用画像33を入力した際に、出力された予想成功率のヒートマップが示されている。
エポック0の提案手法有りでは、選択用画像33の全領域に渡って予想成功率が低くなっている。これは実際の状態(黒いケース48のみが存在し、白いワーク47が存在しない状態)に対して正しい予想がされていることを意味している。一方でエポック0の提案手法無しでは、全領域に渡って予想成功率が高くなっている。これは実際の状態に対して誤った予想がされていることを意味している。
エポック1以降を見ると、提案手法有りでは最初から背景部分(ケース48の部分)の予想成功率が低く、ワーク47の部分の予想成功率が高い。一方で提案手法無しでは、最初は反対の予想をしており、正しい予想になるまでに学習を重ねる必要があったことが見て取れる。またエポック10を見ても、提案手法無しは提案手法有りに対して背景部分の色が濃く、成功率予想がまだ初期値に影響されていることが分かる。
[初期ネットワーク・データセットの工夫]
図14は、機械学習モデル32の学習状態を模式的に示した図である。
図14には、機械学習モデル32のニューラルネットワーク55が模式的な絵で示されている。ニューラルネットワーク55が図14の上部に位置し、色が濃い状態は、予想成功率の算出精度が高く、ピッキングの成功率が高いことを意味している。逆に、ニューラルネットワーク55が図14の下部に位置し、色が薄い状態は、予想成功率の算出精度が低く、ピッキングの成功率が低いことを意味している。
図14は、機械学習モデル32の学習状態を模式的に示した図である。
図14には、機械学習モデル32のニューラルネットワーク55が模式的な絵で示されている。ニューラルネットワーク55が図14の上部に位置し、色が濃い状態は、予想成功率の算出精度が高く、ピッキングの成功率が高いことを意味している。逆に、ニューラルネットワーク55が図14の下部に位置し、色が薄い状態は、予想成功率の算出精度が低く、ピッキングの成功率が低いことを意味している。
通常は(本技術を用いず、何も工夫しない場合は)、まずオンライン学習前にスタートとなる初期ネットワーク56を用意しておき、それに対してランダムにサンプリングして収集したデータセット57を加えて学習を繰り返す。そしてネットワークが更新されていき(矢印58)、最終的にタスクにマッチした学習済みネットワーク59が作られる。
ここで注意したいのが、ディープラーニングにおいては初期ネットワーク56を設定する必要があるということである。ネットワークの初期値については注目されることが少ないが、何らかの値が入っており、これが学習に大きく影響する場合がある。つまり初期ネットワーク56がランダムに生成されたものであると、最終的な学習済みネットワーク59とは大きく異なるものである可能性が高い。この、初期ネットワーク56と学習済みネットワーク59の差が大きければ大きいほど、多くのデータセットと学習回数が必要になり、学習時間が長くかかることになる。
また、データセット57がランダムにサンプリングしたものであると、十分な数とバリエーションのサンプルが蓄積されるまでに(失敗も含めて)多くの試行が必要になる、無駄に重複するサンプルを収集してしまう等、サンプリング効率が悪く、学習に時間がかかることに繋がる。
以上のことから、ピッキングの学習を高速化するためのアプローチとして、
(1)初期ネットワーク56の工夫
(2)データセット57の収集方法の工夫
の2つの手段が考えられる。
(1)初期ネットワーク56の工夫
(2)データセット57の収集方法の工夫
の2つの手段が考えられる。
(1)初期ネットワーク56の工夫について、より最終形(学習済みネットワーク59)に近い初期ネットワーク60を作る方法として、
(A)転移学習
(B)エリート選択
(C)色教示(本技術の手法)
の3つの手法が考えられる。これらの手法を用いて、より最終形に近い初期ネットワーク60を生成することにより、ゴールに近いところからオンライン学習をスタートできる。従ってデータセット57も少なくて済み、学習時間が短縮される。
(A)転移学習
(B)エリート選択
(C)色教示(本技術の手法)
の3つの手法が考えられる。これらの手法を用いて、より最終形に近い初期ネットワーク60を生成することにより、ゴールに近いところからオンライン学習をスタートできる。従ってデータセット57も少なくて済み、学習時間が短縮される。
(A)転移学習とは、類似したワークで学習させて作成したニューラルネットワークを利用する手法である。(B)エリート選択とは、過去のいくつかの種類のワークで学習して作成されたニューラルネットワークの中から、最も良いものを自動的に選択して初期ネットワークとする手法である。
(C)色教示は本技術の手法である。すなわち本技術を用いることで、最終形に近い初期ネットワーク60を生成することが可能となり、学習の効率化が実現される。
(2)データセット57の収集方法の工夫については、
(D)トライ位置教示
(E)ポリシー選択
の2つの手法が考えられる。これらの手法により戦略を持ってサンプリングした良質なデータセット61が用いられることで、少ないデータセットでゴールに辿り着く。すなわち、ランダム収集したデータセット57を用いる場合に比べて学習時間が短縮される。
(D)トライ位置教示
(E)ポリシー選択
の2つの手法が考えられる。これらの手法により戦略を持ってサンプリングした良質なデータセット61が用いられることで、少ないデータセットでゴールに辿り着く。すなわち、ランダム収集したデータセット57を用いる場合に比べて学習時間が短縮される。
(D)トライ位置教示とは、トライする場所(成功しそうな場所)をいくつか人間が指定(画像上でマウスクリックする等)して成功事例を蓄積する手法である。(E)ポリシー選択とは、サンプリングポリシー戦略の工夫であり、それまでの学習結果に基づいて算出された成功しやすいと予想される場所、及びランダムな場所を織り交ぜてサンプリングする手法である。
なお、(1)初期ネットワーク56の工夫のための手法、及び(2)データセット57の収集方法の工夫のための手法が併用されてもよい。これにより、さらに学習を効率化することが可能となる。
このように本技術では、予めオフライン学習により、ある程度正確に予想成功率を算出可能な機械学習モデル32が作成され、実際のピッキングを伴うオンライン学習の初期ネットワークとして使用される。そのため図12に示すように、オンライン学習において最初から成功事例を蓄積しやすくなり、学習の立ち上がりが速くなる。これにより、学習の高速化を実現することが可能となる。
本技術では正解データ43だけでなく、不正解データ44も用いられ、機械学習モデル32のオンライン学習が実行される。これにより、学習がさらに効率的に実行される。
また本技術では、ピッキングに成功した場合に、そのピッキングに用いられた選択用画像33に正解ラベル38が関連付けられ、正解データ43が生成される。同様に、ピッキングに失敗した場合に、そのピッキングに用いられた選択用画像33に不正解ラベル40が関連付けられ、不正解データ44が生成される。これにより、学習がさらに効率的に実行される。
また本技術では、ピッキングの対象に物体2が含まれる。また、ピッキングの対象とならないものに底面10や選択動作の対象とならない物体が含まれる。すなわち、物体2のピッキングを精度よく行うことが可能となる。また、底面10や選択動作の対象とならない物体が選択されにくくなる。
また本技術では、学習に物体2の色が全領域に表現された画像、及び底面10の色が全領域に表現された画像が用いられる。これにより、学習が精度よく実行される。
また本技術では、選択動作として、ロボットアーム1により物体2を取り出す動作が実行される。すなわち、ピッキングを精度よく実行することが可能となる。
また本技術では、予想成功率が算出され、予想成功率に基づいてピッキングが実行される。これにより、ピッキングの成功率が向上する。
<その他の実施形態>
本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
[特徴反映画像のバリエーション]
図15は、特徴反映画像のバリエーションの模式図である。
図15には、以下の各場合における背景の特徴反映画像64及びワークの特徴反映画像65の一例が模式的に図示されている。
(1)背景もワークも単色の場合
(1-1)背景もワークも1種類の場合
(1-2)背景のみが1種類に決まっている場合
(1-3)ワークのみが1種類に決まっている場合
(1-4)背景もワークも複数の候補がある場合
(2)背景やワークに模様がある場合
(2-1)背景もワークも1種類の場合
(2-2)背景のみが1種類に決まっている場合
(2-3)ワークのみが1種類に決まっている場合
(2-4)背景もワークも複数の候補がある場合
なお、例えば底面10が背景に相当し、物体2がワークに相当する。
図15は、特徴反映画像のバリエーションの模式図である。
図15には、以下の各場合における背景の特徴反映画像64及びワークの特徴反映画像65の一例が模式的に図示されている。
(1)背景もワークも単色の場合
(1-1)背景もワークも1種類の場合
(1-2)背景のみが1種類に決まっている場合
(1-3)ワークのみが1種類に決まっている場合
(1-4)背景もワークも複数の候補がある場合
(2)背景やワークに模様がある場合
(2-1)背景もワークも1種類の場合
(2-2)背景のみが1種類に決まっている場合
(2-3)ワークのみが1種類に決まっている場合
(2-4)背景もワークも複数の候補がある場合
なお、例えば底面10が背景に相当し、物体2がワークに相当する。
また、特徴反映画像64又は65による教示が行われなくてもよいケースでは、特徴反映画像64又は65が図示された欄の背景色をグレー色としている。例えば背景やワークの特徴に候補がない場合等に、教示が行われなくてもよい。
(1-1)背景もワークも1種類の色である場合は、当該背景の色の画像を特徴反映画像64、ワークの色の画像を特徴反映画像65として、オフライン学習が行われる。すなわち、特徴反映画像64及び65の各々はいずれも1種類の画像となる。例えば図6の例がこのようなケースに該当する。
(1-2)背景のみが1種類の色であり、ワークの色に複数の候補がある場合、背景の特徴反映画像64は1種類の色画像となり、ワークの色の候補に対応した複数種類の色画像が、ワークの特徴反映画像65となる。例えば赤色の画像、黄色の画像、青色の画像がワークの特徴反映画像65となる。もちろん色の組み合わせはこれに限定されない。あるいはワークの色が教示されず、背景の特徴反映画像64のみを用いたオフライン学習が実行されてもよい。
(1-3)ワークのみが1種類の色である場合も、(1-2)の場合と同様に、ワークの特徴反映画像65が1種類の色画像となる。また、背景の特徴反映画像64は複数種類の色画像となる。あるいは背景の色が教示されずにオフライン学習が実行される。
(1-4)背景の色、ワークの色の両方に複数の候補がある場合には、背景の特徴反映画像64及びワークの特徴反映画像65の両方が、複数種類の色画像となる。あるいは背景やワークの片方が教示されなくてもよい。
(2)背景やワークの特徴が模様である場合も、特徴反映画像64及び65を模様の画像とすることで、オフライン学習が可能となる。(2-1)~(2-4)のバリエーションの内容は、(1-1)~(1-4)の内容と同様である。
このように本実施形態では、選択対象の特徴に選択対象の色及び模様の少なくとも一方が含まれる。また、選択対象の特徴反映画像65に、選択対象の色及び模様の少なくとも一方が表現された画像が含まれる。
選択対象の色が表現された画像には、例えば全領域が当該色である画像、一部の領域が当該色である画像が含まれる。また、「赤」「RED」等の文字が表示された画像も、色が表現された画像に含まれる。同様に、選択対象の模様が表現された画像には、全領域や一部領域が当該模様である画像、「水玉」等の文字が表示された画像が含まれる。
あるいは、色及び模様の両方が特徴である場合には、白黒の縞模様が表示された画像、模様を背景として「赤」の文字が表示された画像等、色及び模様の両方が表現された画像が用いられてもよい。その他、特徴反映画像65により選択対象の色及び模様がどのように表現されるかは限定されない。
また本実施形態では、選択非対象の特徴に選択非対象の色及び模様の少なくとも一方が含まれる。また、選択非対象の特徴反映画像64に、選択非対象の色及び模様の少なくとも一方が表現された画像が含まれる。
例えば全領域が選択非対象の色や模様である画像、色や模様が文字により表示された画像、色付きの模様が表示された画像等が、選択非対象の色や模様が表現された画像に含まれる。その他、特徴反映画像64により選択非対象の色及び模様がどのように表現されるかは限定されない。
これにより、選択対象や選択非対象の特徴が色や模様である場合において、効率的な学習を行うことが可能となる。
また本実施形態では、複数の選択対象が存在する場合、複数の選択対象の特徴が反映された複数の特徴反映画像65の各々に正解ラベル38が関連付けられた正解データ35が用いられ、オフライン学習部26により機械学習モデル32の学習が行われる。
例えば選択対象として「赤色のワーク」「黄色のワーク」「青色のワーク」が存在する場合には、図15の(1-2)や(1-4)に示すように、複数の特徴反映画像65として「赤色の画像」、「黄色の画像」、「青色の画像」が用意され、これらの特徴反映画像65によりオフライン学習が行われる。
また例えば、「赤色のワーク」「水玉模様のワーク」が存在する場合には、特徴反映画像65として「赤色の画像」「水玉模様の画像」が用意される。このように複数の選択対象の特徴の種類が異なっていてもよい。
あるいは、複数の選択対象が存在する場合に、そのうちの一部の選択対象に関してのみ特徴反映画像65が用意されてもよい。例えば選択対象として「赤色のワーク」「黄色のワーク」「青色のワーク」が存在する場合に、「黄色の画像」、「青色の画像」のみが用意されてもよい。その他、複数の選択対象に対して具体的にどのような特徴反映画像65が用意されるかは限定されない。
また本実施形態では、複数の選択非対象が存在する場合、複数の選択非対象の特徴が反映された複数の特徴反映画像64の各々に不正解ラベル40が関連付けられた不正解データ36が用いられ、オフライン学習部26により機械学習モデル32の学習が行われる。
例えば選択非対象として「緑色の背景」「紫色の背景」「橙色の背景」が存在する場合には、複数の特徴反映画像64として「緑色の画像」、「紫色の画像」、「橙色の画像」が用意され、オフライン学習が行われる。その他、複数の選択非対象に対して具体的にどのような特徴反映画像64が用意されるかは限定されない。
なお、複数の選択対象や複数の選択非対象に色や模様以外の特徴が含まれる場合においても、本技術は適用可能である。例えば特徴反映画像64及び65として、「赤色の画像」「水玉模様の画像」「重さが絵で表現された画像」「物体の種類が文字で表現された画像」の4枚の画像を用いたオフライン学習が可能である。
これにより、複数の選択対象や複数の選択非対象が存在する場合において、効率的な学習を行うことが可能となる。例えば食品業界などでは、混載状態(様々な種類の食品がランダムに積まれた状態)からのピッキングが必要になる場合もある。このような場合でも、精度よくピッキングを行うことが可能となる。
[特徴反映画像の作成]
選択対象の特徴反映画像65や選択非対象の特徴反映画像64が、ユーザにより作成されてもよい。例えば、ユーザは専用のGUIを使用し、特徴反映画像64及び65の作成(色や模様の設定等)を行うことが可能である。
選択対象の特徴反映画像65や選択非対象の特徴反映画像64が、ユーザにより作成されてもよい。例えば、ユーザは専用のGUIを使用し、特徴反映画像64及び65の作成(色や模様の設定等)を行うことが可能である。
具体的には、GUI出力部31によりGUIが生成され、表示部18に出力される。また本実施形態では、受付部30により、特徴反映画像64又は65を作成するためのユーザの入力操作が受け付けられる。
本実施形態では、入力操作に赤色、緑色及び青色の各々の階調値の指定、色パレットによる色の選択、及びスポイト機能による色の指定の少なくとも1つが含まれる。例えばユーザがGUI上で特徴反映画像65の赤色の階調値の指定を行った場合には、当該階調値の指定が、入力操作として受付部30により受け付けられる。さらに、入力操作に関する情報(赤色の階調値)が入力情報として生成され、例えば記憶部21に一時的に記憶されている作成中の特徴反映画像65のデータに、当該入力情報(赤色の階調値)が反映される。
赤色、緑色及び青色の各々の階調値の指定では、例えば階調値(R:0~255、G:0~255、B:0~255)が数値で入力される。例えば紫色の特徴反映画像65が作成される場合には、階調値「R:128、G:0、B:128」が入力される。あるいは、スライダ等により視覚的に階調値が調整されてもよい。
色パレットによる色の選択では、例えば様々な色が格子状に並べられたパレットから所望の色が選択される。色がグラデーションしているグラデーションパレットが用いられてもよい。
スポイト機能による色の指定では、例えば撮像された画像のうち、ワークが写った画素が指定されることで、当該画素の色がスポイトされる。そして、当該スポイトされた色を特徴反映画像65に反映させることが可能である。あるいは、擬似的に作成されたワークの画像から色がスポイトされてもよい。
なお、階調値の指定や色パレットによる色の選択が行われた場合に、人間が色を認識する能力の関係上、特徴反映画像65の色が実際のワークの色と多少異なってしまう場合があり得る。またスポイト機能が用いられた場合に、ワークに対する光の当たり方に起因して、スポイトされた色が実際のワークの色と多少異なってしまうような場合もあり得る。このような場合であっても、特徴反映画像65にワークの色が反映されていることに含まれる。
ワークや背景が撮像された画像のトリミングにより特徴反映画像64及び65の作成が可能であってもよい。また、例えば特徴が縞模様である場合、ワークの回転によって縦縞になったり横縞になったりすることが考えられるが、それら複数の画像が特徴反映画像65として設定されてもよい。
またGUIにより、模様その他の特徴を設定することが可能であってもよい。すなわち入力操作には、階調値の指定等のみならず、特徴反映画像64及び65に任意の特徴を反映させるための操作が含まれる。また、例えばユーザがGUI上でマウスをクリックする操作、キーボードで文字を入力する操作等も入力操作に含まれる。
これにより、ユーザは効率的に特徴反映画像64及び65を作成することが可能となる。
[トライ位置教示]
オンライン学習におけるピッキングでは、通常の方法(機械学習モデル32により予想成功率が算出される方法)、及びトライ位置教示(ユーザがピッキング位置を指定する方法)が併用されてもよい。
オンライン学習におけるピッキングでは、通常の方法(機械学習モデル32により予想成功率が算出される方法)、及びトライ位置教示(ユーザがピッキング位置を指定する方法)が併用されてもよい。
本実施形態では、選択動作は、ユーザにより指定された位置に対する選択動作、及び選択用画像を用いた選択動作が組み合わされることにより実行される。例えばユーザはGUI上で位置を指定することで、トライ位置教示を行うことが可能である。そして、例えばトライ位置教示、通常の方法、トライ位置教示、・・・というように、各々の方法によるピッキングが交互に実行される。もちろん各々の方法が用いられる順番は限定されない。あるいは、各々の方法がランダムな順番で用いられてもよい。
例えば初めの何回かだけをトライ位置教示によるピッキングとすることで、学習初期において成功事例を蓄積しやすくなり、学習の立ち上がりを早めることが可能となる。
[ポリシー選択]
また、オンライン学習におけるピッキングにおいて、ポリシー選択(通常の方法及びランダムな位置に対するピッキングが併用される方法)が用いられてもよい。
また、オンライン学習におけるピッキングにおいて、ポリシー選択(通常の方法及びランダムな位置に対するピッキングが併用される方法)が用いられてもよい。
本実施形態では、選択動作は、ランダムな位置に対する選択動作、及び選択用画像を用いた選択動作が組み合わされることにより実行される。例えばランダムな位置に対するピッキング、通常の方法、ランダムな位置に対するピッキング、・・・というように、各々の方法によるピッキングが交互に実行される。もちろん各々の方法が用いられる順番は限定されない。
トライ位置教示を併用する方法、及びポリシー選択が用いられることで、効率的な学習を実行することが可能となる(図14参照)。その他、通常の方法に対して任意の方法が併用されてよい。
図3に示す情報処理装置16の一部または全部の機能が、ロボットアーム1に搭載されてもよい。あるいは、携帯可能な情報処理装置16が用いられてもよい。情報処理装置16は、複数のコンピュータにより実現されてもよいし、1台のコンピュータにより実現されてもよい。
図16は、情報処理装置16を実現可能なコンピュータ500のハードウェア構成例を示すブロック図である。コンピュータ500は、CPU501、ROM502、RAM503、入出力インタフェース505、及びこれらを互いに接続するバス504を備える。入出力インタフェース505には、表示部506、入力部507、記憶部508、通信部509、及びドライブ部510等が接続される。
表示部506は、例えば液晶、EL等を用いた表示デバイスである。入力部507は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。入力部507がタッチパネルを含む場合、そのタッチパネルは表示部506と一体となり得る。記憶部508は、不揮発性の記憶デバイスであり、例えばHDD、フラッシュメモリ、その他の固体メモリである。ドライブ部510は、例えば光学記録媒体、磁気記録テープ等、リムーバブル記録媒体511を駆動することが可能なデバイスである。
通信部509は、LAN、WAN等に接続可能な、他のデバイスと通信するためのモデム、ルータ、その他の通信機器である。通信部509は、有線及び無線のどちらを利用して通信するものであってもよい。通信部509は、コンピュータ500とは別体で使用される場合が多い。
通信部509は、LAN、WAN等に接続可能な、他のデバイスと通信するためのモデム、ルータ、その他の通信機器である。通信部509は、有線及び無線のどちらを利用して通信するものであってもよい。通信部509は、コンピュータ500とは別体で使用される場合が多い。
上記のようなハードウェア構成を有するコンピュータ500による情報処理は、記憶部508またはROM502等に記憶されたソフトウェアと、コンピュータ500のハードウェア資源との協働により実現される。具体的には、ROM502等に記憶された、ソフトウェアを構成するプログラムをRAM503にロードして実行することにより、本技術に係る情報処理方法が実現される。
プログラムは、例えばリムーバブル記録媒体511を介してコンピュータ500にインストールされる。あるいは、グローバルネットワーク等を介してプログラムがコンピュータ500にインストールされてもよい。その他、コンピュータ500が読み取り可能な非一過性の任意の記憶媒体が用いられてよい。
コンピュータシステムによる本技術に係る情報処理方法の実行は、例えば機械学習モデルの学習、選択動作、教師データの生成、予想成功率の算出、入力操作の受付等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。すなわち本技術に係る情報処理方法は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。
各図面を参照して説明した情報処理装置、ロボットアーム、機械学習モデルの学習、選択動作、各処理フロー等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。
本開示において、「Aより大きい」「Aより小さい」といった「より」を使った表現は、Aと同等である場合を含む概念と、Aと同等である場合を含まない概念の両方を包括的に含む表現である。例えば「Aより大きい」は、Aと同等は含まない場合に限定されず、「A以上」も含む。また「Aより小さい」は、「A未満」に限定されず、「A以下」も含む。本技術を実施する際には、上記で説明した効果が発揮されるように、「Aより大きい」及び「Aより小さい」に含まれる概念から、具体的な設定等を適宜採用すればよい。
以上説明した本技術に係る特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。
なお、本技術は以下のような構成も採ることができる。
(1)
選択動作の対象となる選択対象の1以上の特徴の各々が反映された第1の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第1の正解教師データ、及び前記選択動作の対象とならない選択非対象の1以上の特徴の各々が反映された第2の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第1の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる第1の学習部と、
前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第2の正解教師データを用いて、前記第1の学習部により学習された前記機械学習モデルを学習させる第2の学習部と
を具備する情報処理装置。
(2)(1)に記載の情報処理装置であって、
前記第2の学習部は、前記選択用画像に前記不正解ラベルが関連付けられた第2の不正解教師データを用いて、前記第1の学習部により学習された前記機械学習モデルを学習させる
情報処理装置。
(3)(2)に記載の情報処理装置であって、さらに、
前記選択用画像に基づいて実行された前記選択動作が成功した場合に前記選択動作に用いられた前記選択用画像に前記正解ラベルを関連付けて前記第2の正解教師データを生成し、前記選択用画像に基づいて実行された前記選択動作が失敗した場合に前記選択動作に用いられた前記選択用画像に前記不正解ラベルを関連付けて前記第2の不正解教師データを生成する教師データ生成部を具備する
情報処理装置。
(4)(1)から(3)のうちいずれか1つに記載の情報処理装置であって、
前記選択対象は、前記選択動作の対象となる選択対象物体を含み、
前記選択非対象は、前記選択対象物体が配置される配置領域、及び前記選択動作の対象とならない選択非対象物体の少なくとも一方を含む
情報処理装置。
(5)(1)から(4)のうちいずれか1つに記載の情報処理装置であって、
前記選択対象の前記1以上の特徴は、前記選択対象の色及び模様の少なくとも一方を含み、
前記第1の特徴反映画像は、前記選択対象の色及び模様の少なくとも一方が表現された画像を含む
情報処理装置。
(6)(5)に記載の情報処理装置であって、
前記第1の特徴反映画像は、前記選択対象の色が全領域に表現された画像を含む
情報処理装置。
(7)(1)から(6)のうちいずれか1つに記載の情報処理装置であって、
前記選択非対象の前記1以上の特徴は、前記選択非対象の色及び模様の少なくとも一方を含み、
前記第2の特徴反映画像は、前記選択非対象の色及び模様の少なくとも一方が表現された画像を含む
情報処理装置。
(8)(7)に記載の情報処理装置であって、
前記第2の特徴反映画像は、前記選択非対象の色が全領域に表現された画像を含む
情報処理装置。
(9)(1)から(8)のうちいずれか1つに記載の情報処理装置であって、
前記第1の学習部は、複数の選択対象が存在する場合、前記複数の選択対象の特徴が反映された複数の第1の特徴反映画像の各々に前記正解ラベルが関連付けられた前記第1の正解教師データを用いて前記機械学習モデルを学習させる
情報処理装置。
(10)(1)から(9)のうちいずれか1つに記載の情報処理装置であって、
前記第1の学習部は、複数の選択非対象が存在する場合、前記複数の選択非対象の特徴が反映された複数の第2の特徴反映画像の各々に前記不正解ラベルが関連付けられた前記第1の不正解教師データを用いて前記機械学習モデルを学習させる
情報処理装置。
(11)(1)から(10)のうちいずれか1つに記載の情報処理装置であって、
前記選択動作は、ロボットアームにより前記選択対象を取り出す動作である
情報処理装置。
(12)(1)から(11)のうちいずれか1つに記載の情報処理装置であって、さらに、
前記第1の特徴反映画像及び前記第2の特徴反映画像の少なくとも一方を作成するためのユーザの入力操作を受付ける受付部を具備する
情報処理装置。
(13)(12)に記載の情報処理装置であって、
前記入力操作は、赤色、緑色及び青色の各々の階調値の指定、色パレットによる色の選択、及びスポイト機能による色の指定の少なくとも1つを含む
情報処理装置。
(14)(3)に記載の情報処理装置であって、
前記選択動作は、前記選択用画像の画素ごとに算出された、前記画素に対応する位置に対して前記選択動作を実行した場合の予想成功率に基づいて実行される
情報処理装置。
(15)(1)から(14)のうちいずれか1つに記載の情報処理装置であって、
前記選択動作は、ユーザにより指定された位置に対する前記選択動作、及び前記選択用画像を用いた前記選択動作が組み合わされることにより実行される
情報処理装置。
(16)(1)から(15)のうちいずれか1つに記載の情報処理装置であって、
前記選択動作は、ランダムな位置に対する前記選択動作、及び前記選択用画像を用いた前記選択動作が組み合わされることにより実行される
情報処理装置。
(17)
選択動作の対象となる選択対象の1以上の特徴の各々が反映された第1の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第1の正解教師データ、及び前記選択動作の対象とならない選択非対象の1以上の特徴の各々が反映された第2の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第1の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる第1の学習ステップと、
前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第2の正解教師データを用いて、前記第1の学習ステップで学習された前記機械学習モデルを学習させる第2の学習ステップと
をコンピュータシステムが実行する情報処理方法。
(18)
選択動作の対象となる選択対象の1以上の特徴の各々が反映された第1の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第1の正解教師データ、及び前記選択動作の対象とならない選択非対象の1以上の特徴の各々が反映された第2の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第1の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる第1の学習ステップと、
前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第2の正解教師データを用いて、前記第1の学習ステップで学習された前記機械学習モデルを学習させる第2の学習ステップと
をコンピュータシステムに実行させるプログラム。
(1)
選択動作の対象となる選択対象の1以上の特徴の各々が反映された第1の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第1の正解教師データ、及び前記選択動作の対象とならない選択非対象の1以上の特徴の各々が反映された第2の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第1の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる第1の学習部と、
前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第2の正解教師データを用いて、前記第1の学習部により学習された前記機械学習モデルを学習させる第2の学習部と
を具備する情報処理装置。
(2)(1)に記載の情報処理装置であって、
前記第2の学習部は、前記選択用画像に前記不正解ラベルが関連付けられた第2の不正解教師データを用いて、前記第1の学習部により学習された前記機械学習モデルを学習させる
情報処理装置。
(3)(2)に記載の情報処理装置であって、さらに、
前記選択用画像に基づいて実行された前記選択動作が成功した場合に前記選択動作に用いられた前記選択用画像に前記正解ラベルを関連付けて前記第2の正解教師データを生成し、前記選択用画像に基づいて実行された前記選択動作が失敗した場合に前記選択動作に用いられた前記選択用画像に前記不正解ラベルを関連付けて前記第2の不正解教師データを生成する教師データ生成部を具備する
情報処理装置。
(4)(1)から(3)のうちいずれか1つに記載の情報処理装置であって、
前記選択対象は、前記選択動作の対象となる選択対象物体を含み、
前記選択非対象は、前記選択対象物体が配置される配置領域、及び前記選択動作の対象とならない選択非対象物体の少なくとも一方を含む
情報処理装置。
(5)(1)から(4)のうちいずれか1つに記載の情報処理装置であって、
前記選択対象の前記1以上の特徴は、前記選択対象の色及び模様の少なくとも一方を含み、
前記第1の特徴反映画像は、前記選択対象の色及び模様の少なくとも一方が表現された画像を含む
情報処理装置。
(6)(5)に記載の情報処理装置であって、
前記第1の特徴反映画像は、前記選択対象の色が全領域に表現された画像を含む
情報処理装置。
(7)(1)から(6)のうちいずれか1つに記載の情報処理装置であって、
前記選択非対象の前記1以上の特徴は、前記選択非対象の色及び模様の少なくとも一方を含み、
前記第2の特徴反映画像は、前記選択非対象の色及び模様の少なくとも一方が表現された画像を含む
情報処理装置。
(8)(7)に記載の情報処理装置であって、
前記第2の特徴反映画像は、前記選択非対象の色が全領域に表現された画像を含む
情報処理装置。
(9)(1)から(8)のうちいずれか1つに記載の情報処理装置であって、
前記第1の学習部は、複数の選択対象が存在する場合、前記複数の選択対象の特徴が反映された複数の第1の特徴反映画像の各々に前記正解ラベルが関連付けられた前記第1の正解教師データを用いて前記機械学習モデルを学習させる
情報処理装置。
(10)(1)から(9)のうちいずれか1つに記載の情報処理装置であって、
前記第1の学習部は、複数の選択非対象が存在する場合、前記複数の選択非対象の特徴が反映された複数の第2の特徴反映画像の各々に前記不正解ラベルが関連付けられた前記第1の不正解教師データを用いて前記機械学習モデルを学習させる
情報処理装置。
(11)(1)から(10)のうちいずれか1つに記載の情報処理装置であって、
前記選択動作は、ロボットアームにより前記選択対象を取り出す動作である
情報処理装置。
(12)(1)から(11)のうちいずれか1つに記載の情報処理装置であって、さらに、
前記第1の特徴反映画像及び前記第2の特徴反映画像の少なくとも一方を作成するためのユーザの入力操作を受付ける受付部を具備する
情報処理装置。
(13)(12)に記載の情報処理装置であって、
前記入力操作は、赤色、緑色及び青色の各々の階調値の指定、色パレットによる色の選択、及びスポイト機能による色の指定の少なくとも1つを含む
情報処理装置。
(14)(3)に記載の情報処理装置であって、
前記選択動作は、前記選択用画像の画素ごとに算出された、前記画素に対応する位置に対して前記選択動作を実行した場合の予想成功率に基づいて実行される
情報処理装置。
(15)(1)から(14)のうちいずれか1つに記載の情報処理装置であって、
前記選択動作は、ユーザにより指定された位置に対する前記選択動作、及び前記選択用画像を用いた前記選択動作が組み合わされることにより実行される
情報処理装置。
(16)(1)から(15)のうちいずれか1つに記載の情報処理装置であって、
前記選択動作は、ランダムな位置に対する前記選択動作、及び前記選択用画像を用いた前記選択動作が組み合わされることにより実行される
情報処理装置。
(17)
選択動作の対象となる選択対象の1以上の特徴の各々が反映された第1の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第1の正解教師データ、及び前記選択動作の対象とならない選択非対象の1以上の特徴の各々が反映された第2の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第1の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる第1の学習ステップと、
前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第2の正解教師データを用いて、前記第1の学習ステップで学習された前記機械学習モデルを学習させる第2の学習ステップと
をコンピュータシステムが実行する情報処理方法。
(18)
選択動作の対象となる選択対象の1以上の特徴の各々が反映された第1の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第1の正解教師データ、及び前記選択動作の対象とならない選択非対象の1以上の特徴の各々が反映された第2の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第1の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる第1の学習ステップと、
前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第2の正解教師データを用いて、前記第1の学習ステップで学習された前記機械学習モデルを学習させる第2の学習ステップと
をコンピュータシステムに実行させるプログラム。
1…ロボットアーム
2…物体
10…底面
16…情報処理装置
24…予想成功率算出部
25…位置決定部
26…オフライン学習部
27…オンライン学習部
28…結果取得部
29…教師データ生成部
30…受付部
32…機械学習モデル
33…選択用画像
35…正解データ
36…不正解データ
38…正解ラベル
39…色画像
40…不正解ラベル
64…特徴反映画像
65…特徴反映画像
2…物体
10…底面
16…情報処理装置
24…予想成功率算出部
25…位置決定部
26…オフライン学習部
27…オンライン学習部
28…結果取得部
29…教師データ生成部
30…受付部
32…機械学習モデル
33…選択用画像
35…正解データ
36…不正解データ
38…正解ラベル
39…色画像
40…不正解ラベル
64…特徴反映画像
65…特徴反映画像
Claims (18)
- 選択動作の対象となる選択対象の1以上の特徴の各々が反映された第1の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第1の正解教師データ、及び前記選択動作の対象とならない選択非対象の1以上の特徴の各々が反映された第2の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第1の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる第1の学習部と、
前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第2の正解教師データを用いて、前記第1の学習部により学習された前記機械学習モデルを学習させる第2の学習部と
を具備する情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記第2の学習部は、前記選択用画像に前記不正解ラベルが関連付けられた第2の不正解教師データを用いて、前記第1の学習部により学習された前記機械学習モデルを学習させる
情報処理装置。 - 請求項2に記載の情報処理装置であって、さらに、
前記選択用画像に基づいて実行された前記選択動作が成功した場合に前記選択動作に用いられた前記選択用画像に前記正解ラベルを関連付けて前記第2の正解教師データを生成し、前記選択用画像に基づいて実行された前記選択動作が失敗した場合に前記選択動作に用いられた前記選択用画像に前記不正解ラベルを関連付けて前記第2の不正解教師データを生成する教師データ生成部を具備する
情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記選択対象は、前記選択動作の対象となる選択対象物体を含み、
前記選択非対象は、前記選択対象物体が配置される配置領域、及び前記選択動作の対象とならない選択非対象物体の少なくとも一方を含む
情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記選択対象の前記1以上の特徴は、前記選択対象の色及び模様の少なくとも一方を含み、
前記第1の特徴反映画像は、前記選択対象の色及び模様の少なくとも一方が表現された画像を含む
情報処理装置。 - 請求項5に記載の情報処理装置であって、
前記第1の特徴反映画像は、前記選択対象の色が全領域に表現された画像を含む
情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記選択非対象の前記1以上の特徴は、前記選択非対象の色及び模様の少なくとも一方を含み、
前記第2の特徴反映画像は、前記選択非対象の色及び模様の少なくとも一方が表現された画像を含む
情報処理装置。 - 請求項7に記載の情報処理装置であって、
前記第2の特徴反映画像は、前記選択非対象の色が全領域に表現された画像を含む
情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記第1の学習部は、複数の選択対象が存在する場合、前記複数の選択対象の特徴が反映された複数の第1の特徴反映画像の各々に前記正解ラベルが関連付けられた前記第1の正解教師データを用いて前記機械学習モデルを学習させる
情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記第1の学習部は、複数の選択非対象が存在する場合、前記複数の選択非対象の特徴が反映された複数の第2の特徴反映画像の各々に前記不正解ラベルが関連付けられた前記第1の不正解教師データを用いて前記機械学習モデルを学習させる
情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記選択動作は、ロボットアームにより前記選択対象を取り出す動作である
情報処理装置。 - 請求項1に記載の情報処理装置であって、さらに、
前記第1の特徴反映画像及び前記第2の特徴反映画像の少なくとも一方を作成するためのユーザの入力操作を受付ける受付部を具備する
情報処理装置。 - 請求項12に記載の情報処理装置であって、
前記入力操作は、赤色、緑色及び青色の各々の階調値の指定、色パレットによる色の選択、及びスポイト機能による色の指定の少なくとも1つを含む
情報処理装置。 - 請求項3に記載の情報処理装置であって、
前記選択動作は、前記選択用画像の画素ごとに算出された、前記画素に対応する位置に対して前記選択動作を実行した場合の予想成功率に基づいて実行される
情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記選択動作は、ユーザにより指定された位置に対する前記選択動作、及び前記選択用画像を用いた前記選択動作が組み合わされることにより実行される
情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記選択動作は、ランダムな位置に対する前記選択動作、及び前記選択用画像を用いた前記選択動作が組み合わされることにより実行される
情報処理装置。 - 選択動作の対象となる選択対象の1以上の特徴の各々が反映された第1の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第1の正解教師データ、及び前記選択動作の対象とならない選択非対象の1以上の特徴の各々が反映された第2の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第1の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる第1の学習ステップと、
前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第2の正解教師データを用いて、前記第1の学習ステップで学習された前記機械学習モデルを学習させる第2の学習ステップと
をコンピュータシステムが実行する情報処理方法。 - 選択動作の対象となる選択対象の1以上の特徴の各々が反映された第1の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第1の正解教師データ、及び前記選択動作の対象とならない選択非対象の1以上の特徴の各々が反映された第2の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第1の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる第1の学習ステップと、
前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第2の正解教師データを用いて、前記第1の学習ステップで学習された前記機械学習モデルを学習させる第2の学習ステップと
をコンピュータシステムに実行させるプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024562615A JPWO2024122206A1 (ja) | 2022-12-07 | 2023-10-23 |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2022-195348 | 2022-12-07 | ||
| JP2022195348 | 2022-12-07 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2024122206A1 true WO2024122206A1 (ja) | 2024-06-13 |
Family
ID=91378858
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2023/038130 Ceased WO2024122206A1 (ja) | 2022-12-07 | 2023-10-23 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JPWO2024122206A1 (ja) |
| WO (1) | WO2024122206A1 (ja) |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017185577A (ja) * | 2016-04-04 | 2017-10-12 | ファナック株式会社 | シミュレーション結果を利用して学習を行う機械学習装置,機械システム,製造システムおよび機械学習方法 |
| JP2019058960A (ja) * | 2017-09-25 | 2019-04-18 | ファナック株式会社 | ロボットシステム及びワーク取り出し方法 |
| JP2019188516A (ja) * | 2018-04-24 | 2019-10-31 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
| JP2022076296A (ja) * | 2020-11-09 | 2022-05-19 | 東京ロボティクス株式会社 | データセット生成装置、生成方法、プログラム、システム、機械学習装置、物体認識装置、及びピッキングシステム |
| JP2022114352A (ja) * | 2021-01-26 | 2022-08-05 | 株式会社アドイン研究所 | 人工知能(ai)による推定システム、学習データ生成装置、学習装置、摘果対象物推定装置、学習システム、及び、プログラム |
-
2023
- 2023-10-23 WO PCT/JP2023/038130 patent/WO2024122206A1/ja not_active Ceased
- 2023-10-23 JP JP2024562615A patent/JPWO2024122206A1/ja active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017185577A (ja) * | 2016-04-04 | 2017-10-12 | ファナック株式会社 | シミュレーション結果を利用して学習を行う機械学習装置,機械システム,製造システムおよび機械学習方法 |
| JP2019058960A (ja) * | 2017-09-25 | 2019-04-18 | ファナック株式会社 | ロボットシステム及びワーク取り出し方法 |
| JP2019188516A (ja) * | 2018-04-24 | 2019-10-31 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
| JP2022076296A (ja) * | 2020-11-09 | 2022-05-19 | 東京ロボティクス株式会社 | データセット生成装置、生成方法、プログラム、システム、機械学習装置、物体認識装置、及びピッキングシステム |
| JP2022114352A (ja) * | 2021-01-26 | 2022-08-05 | 株式会社アドイン研究所 | 人工知能(ai)による推定システム、学習データ生成装置、学習装置、摘果対象物推定装置、学習システム、及び、プログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2024122206A1 (ja) | 2024-06-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12240115B2 (en) | Systems and methods for robotic picking | |
| JP6921151B2 (ja) | ロボットの把持のための深層機械学習方法および装置 | |
| US20240157553A1 (en) | Systems and methods for robotic picking and perturbation | |
| US12491629B2 (en) | Training artificial networks for robotic picking | |
| JP7581520B2 (ja) | 把持の生成のためのピクセル単位の予測 | |
| JPWO2018116589A1 (ja) | 産業機器用の画像認識プロセッサ及びコントローラ | |
| US12059813B2 (en) | Determine depth with pixel-to-pixel image correspondence for three-dimensional computer vision | |
| Park et al. | Development of robotic bin picking platform with cluttered objects using human guidance and convolutional neural network (CNN) | |
| CN111832702A (zh) | 用于机器人抓取的深度机器学习方法和装置 | |
| CN106393102A (zh) | 机械学习装置、机器人系统及机械学习方法 | |
| CN110238840B (zh) | 一种基于视觉的机械臂自主抓取方法 | |
| JP2022187984A (ja) | モジュール化ニューラルネットワークを用いた把持学習 | |
| CN117881506A (zh) | 机器人任务规划 | |
| Zhang et al. | A robotic grasp detection method based on auto-annotated dataset in disordered manufacturing scenarios | |
| JP2022187983A (ja) | 高次元のロボット作業を学習するためのネットワークモジュール化 | |
| Huang et al. | Grasping novel objects with a dexterous robotic hand through neuroevolution | |
| Qiu et al. | Robotic fabric flattening with wrinkle direction detection | |
| Moosmann et al. | Transfer learning for machine learning-based detection and separation of entanglements in bin-picking applications | |
| Van Molle et al. | Learning to grasp from a single demonstration | |
| WO2024122206A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
| CN119141536B (zh) | 一种再生物品分拣的多机械臂深度强化学习控制方法和装置 | |
| Chen et al. | Robotic grasp control policy with target pre-detection based on deep Q-learning | |
| Shukla et al. | Robotized grasp: grasp manipulation using evolutionary computing | |
| Bodenhagen et al. | Learning to grasp unknown objects based on 3d edge information | |
| Rodrigues et al. | Using Soft Computing and Computer Vision to Create and Control an Integrated Autonomous Robotic Manipulator Process. |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23900328 Country of ref document: EP Kind code of ref document: A1 |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 2024562615 Country of ref document: JP |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 23900328 Country of ref document: EP Kind code of ref document: A1 |