DE112021008311T5

DE112021008311T5 - Arbeitsanalysevorrichtung

Info

Publication number: DE112021008311T5
Application number: DE112021008311.2T
Authority: DE
Inventors: Tomofumi UWANO; Kazuhiro Yamato
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2024-08-14
Also published as: WO2023105726A1; JPWO2023105726A1; JP7769009B2; CN118355416A

Abstract

Die vorliegende Erfindung erkennt ein Objekt aus einem Bild, um die Arbeit mit einem geringen Berechnungsaufwand zu klassifizieren. Es wird eine Vorrichtung zur Analyse der Arbeit eines Arbeiters bereitgestellt, wobei die Vorrichtung zur Analyse der Arbeit Folgendes umfasst: eine Gemeinsame-Positions-Schätzeinheit, die gemeinsame Positions-Information in Bezug auf den Arbeiter aus Videodaten schätzt, die die Arbeit des Arbeiters enthalten; eine Bewegungs-Schätzeinheit, die Bewegungs-Information in Bezug auf den Arbeiter auf der Grundlage der gemeinsamen Positions-Information schätzt, die von der Gemeinsame-Positions-Schätzeinheit geschätzt wurden; eine Bild-Extraktionseinheit, die auf der Grundlage der von der Bewegungs-Schätzeinheit geschätzten Bewegungs-Information einen Bereich der Videodaten extrahiert, der sich auf ein Objekt bezieht, das für die Bewegungs-Information aus den Videodaten relevant ist; eine Objekt-Erkennungseinheit, die das Objekt in dem Bereich der von der Bild-Extraktionseinheit extrahierten Videodaten erkennt; und eine Arbeits-Identifikationseinheit, die die Arbeit des Arbeiters auf der Grundlage des von der Objekt-Erkennungseinheit erkannten Objekts identifiziert.

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich auf eine Aufgabenanalysevorrichtung.
STAND DER TECHNIK
In Fabriken können zwar Betriebsdaten, z.B. von Werkzeugmaschinen, erfasst werden, aber Daten über die Aufgaben der Arbeiter können nicht erfasst werden. Bei der Verbesserung von Aufgaben, der Prüfung der Einführung eines Roboters und der Implementierung eines digitalen Zwillings einer Fabrik geht es darum, die Aufgaben der Arbeiter zu visualisieren, und die Technik der automatischen Erkennung der Aufgaben eines Arbeiters anhand eines Videos ist wichtig.
In diesem Zusammenhang ist eine Technik bekannt, bei der: maschinelles Lernen unter Verwendung von Trainingsdaten durchgeführt wird, die aus Eingabedaten, die sich auf Bilder beziehen, die durch die Abbildung der Aufgaben von Arbeitern bereitgestellt werden, und aus Kennzeichnungsdaten, die sich auf die Aufgaben der Arbeiter beziehen, die durch die Bilder angezeigt werden, gebildet werden; ein trainiertes Modell zur Identifizierung einer Aufgabe aus einem Bild erzeugt wird; und durch Verwendung des trainierten Modells identifiziert wird, welche Aufgabe in einem zu analysierenden Bild ausgeführt wird. Es wird verwiesen auf das Patentdokument 1.
Es ist auch eine Technik bekannt, bei der: die Position der Hand eines Arbeiters anhand von Bilddaten identifiziert wird, die von einem Tiefensensor erfasst wurden; und die Position eines Objekts anhand von Bilddaten identifiziert wird, die mit einer Digitalkamera erfasst wurden, um Details einer Bewegung zu identifizieren, die der Arbeiter bei einer Aufgabe gemacht hat. Es wird auf zum Beispiel auf das Patentdokument 2 verwiesen.
Zitierliste
Patentdokument

Patentdokument 1: Japanische ungeprüfte Patentanmeldung, Veröffentlichung Nr. 2021-67981
Patentdokument 2: PCT Internationale Veröffentlichung Nr. WO2017/222070

OFFENLEGUNG DER ERFINDUNG
Probleme, die durch die Erfindung gelöst werden sollen
Klassifizierungsmodelle wie das trainierte Modell in Patentdokument 1 haben jedoch das Problem der Komplexität und geringen Interpretierbarkeit.
Die Erkennung eines benutzten Werkzeugs (Objekts) aus einem Bild zur Klassifizierung einer Aufgabe, wie in Patentdokument 2, erfordert jedoch einen hohen Rechenaufwand, um das gesamte Bild zu scannen.
Dementsprechend ist es wünschenswert, ein Objekt aus einem Bild zu erkennen, um eine Aufgabe mit einem geringen Rechenaufwand zu klassifizieren.
Mittel zur Lösung der Probleme
Ein Aspekt einer Aufgabenanalysevorrichtung der vorliegenden Offenbarung ist eine Aufgabenanalysevorrichtung zum Analysieren einer Aufgabe eines Arbeiters, wobei die Aufgabenanalysevorrichtung umfasst: eine Gemeinsame-Positions-Schätzeinheit (engl. „joint-position“ also auch Gelenkposition oder Verbindungsposition), die so konfiguriert ist, dass sie gemeinsame Positions-Information (im Folgenden auch Gelenkpositionsinformation), die den Arbeiter betreffen, aus Videodaten schätzt, die die Aufgabe des Arbeiters enthalten; eine Bewegungs-Schätzeinheit, die so konfiguriert ist, dass sie Bewegungs-Information, die den Arbeiter betreffen, auf der Grundlage der gemeinsamen Positions-Information schätzt, die von der Gemeinsame-Positions-Schätzeinheit geschätzt wurden; eine Bild-Extraktionseinheit, die so konfiguriert ist, dass sie aus den Videodaten auf der Grundlage der von der Bewegungs-Schätzeinheit geschätzten Bewegungs-Information einen Bereich auf den Videodaten extrahiert, der zu einem mit den Bewegungs-Information verbundenen Objekt gehört; eine Objekt-Erkennungseinheit, die so konfiguriert ist, dass sie das Objekt innerhalb des Bereichs auf den Videodaten erkennt, der von der Bild-Extraktionseinheit extrahiert wurde; und eine Aufgaben-Identifikationseinheit, die so konfiguriert ist, dass sie die Aufgabe des Arbeiters auf der Grundlage des von der Objekt-Erkennungseinheit erkannten Objekts identifiziert.
Ein Aspekt der Aufgabenanalysevorrichtung der vorliegenden Offenbarung ist eine Aufgabenanalysevorrichtung zum Analysieren einer Aufgabe eines Arbeiters, wobei die Aufgabenanalysevorrichtung umfasst: eine Objekt-Detektionseinheit, die so konfiguriert ist, dass sie ein Objekt aus Videodaten, die die Aufgabe des Arbeiters enthalten, erkennt; eine Gemeinsame-Positions-Schätzeinheit, die so konfiguriert ist, dass sie gemeinsame Positions-Information, die den Arbeiter betreffen, aus den Videodaten schätzt; eine Objektbereichs-Eintritts-/Austritts-Erfassungseinheit, die so konfiguriert ist, dass sie auf der Grundlage der gemeinsamen Positions-Information, die von der Gemeinsame-Positions-Schätzeinheit geschätzt werden, erkennt, ob ein Bildbereich, der eine gemeinsame Position des Arbeiters enthält, in einen Bildbereich, der das von der Objekt-Detektionseinheit detektieren Objekt enthält, eingetreten ist und diesen dann verlassen hat; eine Bild-Extraktionseinheit, die so konfiguriert ist, dass sie aus den Videodaten einen Bereich in den Videodaten extrahiert, der zu dem von der Objekt-Detektionseinheit detektierten Objekt gehört, und zwar auf der Grundlage des Ergebnisses der Erfassung durch die Objektbereichs-Eintritts-/Austritts-Erfassungseinheit; eine Objekt-Erkennungseinheit, die so konfiguriert ist, dass sie eine Objekterkennung für den Bereich in den Videodaten durchführt, der von der Bild-Extraktionseinheit extrahiert worden ist; eine Objektdetektions-Aktivierungseinheit die so konfiguriert ist, dass sie die Objekt-Detektionseinheit veranlasst, das Objekt in einem Fall, in dem die Objekt-Erkennungseinheit nicht in der Lage ist, das Objekt innerhalb des Bereichs auf den Videodaten zu erkennen, periodisch zu detektieren; und eine Aufgaben-Schätzeinheit, die so konfiguriert ist, dass sie die Aufgabe auf der Grundlage einer Änderung einer Koordinate des in den Videodaten durch die Objekt-Detektionseinheit detektierten Objekts identifiziert.
Auswirkungen der Erfindung
Ein Aspekt ermöglicht die Erkennung eines Objekts aus einem Bild, um eine Aufgabe mit einem geringen Rechenaufwand zu klassifizieren.
KURZE BESCHREIBUNG DER ZEICHNUNGEN

1 ist ein funktionales Blockdiagramm, das ein funktionales Konfigurationsbeispiel eines Aufgabenanalysesystems gemäß einer ersten Ausführungsform zeigt;
2A zeigt ein Beispiel für Bereiche in Videodaten, wobei die Bereiche einem Werkzeug (Objekt) und Bewegungs-Information zu einem Arbeiter entsprechen;
2B zeigt ein Beispiel für Bereiche auf Videodaten, wobei die Bereiche einem Werkzeug (Objekt) und Bewegungs-Information zu einem Arbeiter entsprechen;
3 veranschaulicht ein Beispiel für eine Aufgabentabelle;
4A zeigt ein Beispiel für die Form einer Hand, die einen Schraubenzieher hält;
4B zeigt ein Beispiel für eine Form, die eine Hand annimmt, die einen Messschieber hält. Die Form ähnelt der Form in 4A;
5A zeigt unter Bezugnahme auf die in 2B dargestellten Videodaten ein Beispiel für Videodaten, die extrahiert werden, wenn die Hand des Arbeiters die Form eines Schraubendrehers annimmt;
5B zeigt unter Bezugnahme auf die in 2B dargestellten Videodaten ein Beispiel für Videodaten, die extrahiert werden, wenn die Hand des Arbeiters die Form eines Schraubendrehers annimmt;
6 ist ein Flussdiagramm, das die von der Aufgabenanalysevorrichtung durchgeführte Analyseverarbeitung veranschaulicht;
7 ist ein funktionales Blockdiagramm, das ein funktionales Konfigurationsbeispiel eines Aufgabenanalysesystems gemäß einer zweiten Ausführungsform zeigt;
8 zeigt ein Beispiel für Videodaten, die eine Aufgabe eines Arbeiters enthalten;
9 zeigt ein Beispiel für Videodaten, die eine Aufgabe eines Arbeiters enthalten;
10 zeigt ein Beispiel für Videodaten, die eine Aufgabe eines Arbeiters enthalten;
11 illustriert ein Beispiel für Videodaten, die eine Aufgabe eines Arbeiters enthalten; und
12 ist ein Flussdiagramm, das die von der Aufgabenanalysevorrichtung durchgeführte Analyseverarbeitung veranschaulicht.

BEVORZUGTE AUSFÜHRUNGSFORM DER ERFINDUNG
Im Folgenden werden eine erste und eine zweite Ausführungsform der Aufgabenanalysevorrichtung unter Bezugnahme auf die Zeichnungen im Detail beschrieben.
Die Ausführungsformen haben gemeinsam, dass sie eine Aufgabe eines Arbeiters anhand eines mit einer Kamera aufgenommenen Bildes des Arbeiters und eines Objekts (Werkzeugs) identifizieren.
Bei der Identifizierung der Aufgabe des Arbeiters beinhaltet die erste Ausführungsform jedoch: das Schätzen der gemeinsamen Positions-Information (Gelenkpositionsinformation) des Arbeiters aus den Videodaten, die die Aufgabe des Arbeiters enthalten; das Schätzen der Bewegungs-Information des Arbeiters auf der Basis der geschätzten gemeinsamen Positions-Information des Arbeiters; das Extrahieren eines Bereichs aus den Videodaten auf der Basis der geschätzten Bewegungs-Information des Arbeiters, der zu einem Objekt gehört, das mit der Bewegungs-Information assoziiert ist; das Erkennen des Objekts aus dem extrahierten Bereich der Videodaten; und das Identifizieren der Aufgabe des Arbeiters aus dem erkannten Objekt. Die zweite Ausführungsform unterscheidet sich von der ersten Ausführungsform dadurch, dass sie Folgendes umfasst: das Erkennen eines Objekts aus den Videodaten, die die Aufgabe des Arbeiters enthalten, und das Schätzen der gemeinsamen Positions-Information (Gelenkpositionsinformation) des Arbeiters aus den Videodaten; das Erfassen, auf der Grundlage der geschätzten gemeinsamen Positions-Information des Arbeiters, ob ein Bildbereich, der eine gemeinsame Position des Arbeiters enthält, in einen Bildbereich, der das erkannte Objekt enthält, eingetreten ist und diesen dann verlassen hat; Extrahieren eines Bereichs in den Videodaten aus den Videodaten auf der Grundlage des Ergebnisses der Erfassung, der zu dem aus den Videodaten erfassten Objekt gehört; Durchführen einer Objekterkennung für den extrahierten Bereich in den Videodaten; und periodisches Erfassen des Objekts, wenn das Objekt nicht innerhalb des Bereichs in den Videodaten erkannt werden kann, um die Aufgabe des Arbeiters auf der Grundlage einer Änderung einer Koordinate des Objekts zu bestimmen.
Im Folgenden wird zunächst die erste Ausführungsform detailliert beschrieben, und dann wird die zweite Ausführungsform beschrieben, wobei der Schwerpunkt auf den verschiedenen Merkmalen der ersten Ausführungsform liegt.
<Erste Ausführungsform>
1 ist ein funktionales Blockdiagramm, das ein funktionales Konfigurationsbeispiel eines Aufgabenanalysesystems gemäß der ersten Ausführungsform zeigt.
Wie in 1 dargestellt, umfasst das Aufgabenanalysesystem 100 eine Aufgabenanalysevorrichtung 1 und eine Kamera 2.
Die Aufgabenanalysevorrichtung 1 und die Kamera 2 können über ein Netzwerk (nicht gezeigt), wie z.B. ein lokales Netzwerk (LAN) oder das Internet, miteinander verbunden sein. In diesem Fall sind die Aufgabenanalysevorrichtung 1 und die Kamera 2 mit einer Kommunikationseinheit (nicht gezeigt) ausgestattet, die es diesen beiden ermöglicht, über eine solche Verbindung miteinander zu kommunizieren. In der Zwischenzeit können die Aufgabenanalysevorrichtung 1 und die Kamera 2 direkt über eine Verbindungsschnittstelle (nicht gezeigt) drahtlos oder über eine kabelgebundene Verbindung miteinander verbunden werden.
Obwohl in 1 die Aufgabenanalysevorrichtung 1 mit einer Kamera 2 verbunden ist, kann die Aufgabenanalysevorrichtung 1 auch mit zwei oder mehr, d.h. einer Vielzahl von Kameras 2 verbunden sein.
Die Kamera 2, z.B. eine Digitalkamera, nimmt mit einer vorgegebenen Bildrate (z.B. 30 Bilder pro Sekunde [fps]) zweidimensionale Bilder auf, indem sie einen Arbeiter und ein Objekt wie z.B. ein Werkzeug (beide sind nicht abgebildet) auf eine Ebene projiziert, die senkrecht zur optischen Achse der Kamera 2 steht. Die Kamera 2 gibt die aufgenommenen Einzelbilder als Videodaten an die Aufgabenanalysevorrichtung 1 aus. Bei den mit der Kamera 2 aufgenommenen Videodaten kann es sich um RGB-Farbbilder, Graustufenbilder oder Bilder mit sichtbarem Licht wie z.B. Tiefenbilder handeln.
<Aufgabenanalysevorrichtung 1>
Die Aufgabenanalysevorrichtung 1, bei der es sich um einen dem Fachmann allgemein bekannten Computer handelt, umfasst, wie in 1 dargestellt, eine Steuereinheit 10 und eine Speichereinheit 20. Die Steuereinheit 10 umfasst eine Gemeinsame-Positions-Schätzeinheit 101, eine Bewegungs-Schätzeinheit 102, eine Bild-Extraktionseinheit 103, eine Objekt-Erkennungseinheit 104 und eine Aufgaben-Identifikationseinheit 105. Die Aufgaben-Identifikationseinheit 105 umfasst eine Aufgaben-Schätzeinheit 1051.
Die Speichereinheit 20 ist eine Vorrichtung wie ein Festwertspeicher (ROM) oder ein Festplattenlaufwerk (HDD). Die Speichereinheit 20 speichert z.B. ein Betriebssystem und ein Anwendungsprogramm, das von der Steuereinheit 10 (im Folgenden beschrieben) ausgeführt wird. Die Speichereinheit 20 umfasst eine Videodaten-Speichereinheit 201, eine Bewegungs-Speichereinheit 202, eine Objekt-Positions-Beziehungs-Speichereinheit 203 und eine Aufgaben-Speichereinheit 204.
Die Videodaten-Speichereinheit 201 speichert Videodaten eines Arbeiters und eines Objekts wie z.B. eines Werkzeugs, die mit der Kamera 2 aufgenommen wurden.
Die Bewegungs-Speichereinheit 202 speichert eine Regelbasis oder ein trainiertes Modell, das Bewegungs-Information über den Arbeiter ausgibt, wobei die Bewegungs-Information von der Bewegungs-Schätzeinheit 102 (im Folgenden beschrieben) geschätzt werden und den gemeinsamen Positions-Information über den Arbeiter entsprechen. Konkret kann die Bewegungs-Speichereinheit 202 beispielsweise ein trainiertes Modell speichern, wie z.B. ein neuronales Netzwerk, das im Voraus durch öffentlich bekanntes maschinelles Lernen generiert wurde, indem: die Eingabedaten aus gemeinsamen Positions-Information bestehen, einschließlich gemeinsamer Positionen (Gelenkpositionen oder Verbindungspositionen) von z.B. den Händen von Arbeitern in Videodaten, die diese Arbeiter betreffen, wobei die Arbeiter Aufgaben ausführen (z.B. „MESSEN MIT KALIBRIER“, „SCHRAUBE SPANNEN“), die mit der Kamera 2 aufgenommen wurden und identifiziert werden müssen; und Trainingsdaten mit den Aufgaben als Markierungsdaten verwendet werden. Alternativ kann die Bewegungs-Speichereinheit 202 eine Regelbasis speichern, in der gemeinsame Positions-Information zu Arbeitern in Videodaten zu diesen Arbeitern, die Aufgaben ausführen, die mit der Kamera 2 aufgenommen wurden und identifiziert werden sollen, auf der Basis einer öffentlich bekannten Technik mit den Aufgaben verknüpft werden.
Auf der Grundlage von Bewegungs-Information über den Arbeiter, die von der Bewegungs-Schätzeinheit 102 (im Folgenden beschrieben) geschätzt werden, speichert die Objekt-Positions-Beziehungs-Speichereinheit 203 im Voraus einen Bereich auf den Videodaten, wobei der Bereich ein Werkzeug (Objekt) enthält, das mit der Bewegungs-Information verbunden ist.
2A und 2B illustrieren jeweils ein Beispiel für Bereiche auf Videodaten, wobei die Bereiche einem Werkzeug (Objekt) und Bewegungs-Information eines Arbeiters entsprechen. 2A zeigt ein Bild, das der Bewegungs-Information entspricht, die erhalten wird, wenn der Arbeiter eine Messung mit einem Messschieber durchführt. 2B zeigt ein Bild, das der Bewegungs-Information entspricht, die erhalten wird, wenn der Arbeiter eine Schraube mit einem Schraubenzieher anzieht.
Wenn der Arbeiter eine Messung mit einem Messschieber durchführt, wie in 2A, speichert die Objekt-Positions-Beziehungs-Speichereinheit 203 im Voraus als Bereich auf den Videodaten, in dem sich der Messschieber (Objekt) befindet, relative Positions-Koordinaten in z.B. einem rechteckigen Bildkoordinatensystem, das durch eine gestrichelte Linie angezeigt wird und in horizontaler Richtung lang ist, in Bezug auf eine gemeinsame Position (Rechteck, das durch eine gestrichelte Linie angezeigt wird) der Hand des Arbeiters, wobei die gemeinsame Position durch gemeinsame Positions-Information angezeigt wird, die von der Gemeinsame-Positions-Schätzeinheit 101 (im Folgenden beschrieben) geschätzt werden.
Wenn der Arbeiter eine Schraube anzieht, wie in 2B, speichert die Objekt-Positions-Beziehungs-Speichereinheit 203 im Voraus als einen Bereich auf den Videodaten, in dem sich der Schraubendreher (Objekt) befindet, relative Positions-Koordinaten in z.B. einem rechteckigen Bildkoordinatensystem, das durch eine gestrichelte, gepunktete Linie angezeigt wird und in vertikaler Richtung lang ist, in Bezug auf eine gemeinsame Position (durch eine gestrichelte Linie angezeigtes Rechteck) der Hand des Arbeiters, wobei die gemeinsame Position durch gemeinsame Positions-Information angezeigt wird, die von der (im Folgenden beschriebenen) Gemeinsame-Positions-Schätzeinheit 101 geschätzt wird.
Die Aufgaben-Speichereinheit 204 speichert eine Aufgabentabelle, in der ein von der Objekt-Erkennungseinheit 104 (im Folgenden beschrieben) erkanntes Werkzeug (Objekt) mit einer entsprechenden Aufgabe eines Arbeiters verknüpft ist.
3 veranschaulicht ein Beispiel für eine Aufgabentabelle.
Wie in 3 gezeigt, enthält die Aufgabentabelle die Speicherbereiche „OBJEKT“ und „AUFGABE“.
In den Speicherbereichen von „OBJEKT“ in der Aufgabentabelle sind zum Beispiel Werkzeugnamen wie „SCHRAUBENZIEHER“ und „MESSSCHIEBER“ gespeichert.
In den Speicherbereichen von „AUFGABE“ in der Aufgabentabelle sind zum Beispiel Aufgaben wie „SCHRAUBE SPANNEN“ und "MESSEN MIT MESSSCHIEBER " gespeichert.
Informationen können in den Speicherbereichen „OBJEKT“ und „AUFGABE“ in der Aufgabentabelle im Voraus von einem Benutzer, wie z.B. einem Arbeiter, registriert werden, der eine Eingabevorrichtung, wie z.B. eine Tastatur oder ein Touchpanel in der Aufgabenanalysevorrichtung 1, verwendet.
Die Steuereinheit 10 umfasst beispielsweise eine CPU, einen ROM, einen RAM-Speicher und einen CMOS-Speicher, die dem Fachmann bekannt sind und so konfiguriert sind, dass sie über einen Bus miteinander kommunizieren können.
Die CPU ist ein Prozessor, der die Gesamtheit der Aufgabenanalysevorrichtung 1 steuert. Die CPU liest über den Bus ein Systemprogramm und ein Anwendungsprogramm, die im ROM gespeichert sind, und steuert die gesamte Aufgabenanalysevorrichtung 1 in Übereinstimmung mit dem Systemprogramm und dem Anwendungsprogramm. Wie in 1 gezeigt, ist die Steuereinheit 10 so konfiguriert, dass sie die Funktionen der Gemeinsame-Positions-Schätzeinheit 101, der Bewegungs-Schätzeinheit 102, der Bild-Extraktionseinheit 103, der Objekt-Erkennungseinheit 104 und der Aufgaben-Identifikationseinheit 105 ausführt. Die Aufgaben-Identifikationseinheit 105 ist so konfiguriert, dass sie die Funktion der Aufgaben-Schätzeinheit 1051 ausführt. Der Arbeitsspeicher speichert verschiedene Arten von Daten wie temporäre Berechnungsdaten und Anzeigedaten. Der CMOS-Speicher ist als nichtflüchtiger Speicher ausgebildet, der von einer Batterie (nicht gezeigt) unterstützt wird, und sein Speicherstatus bleibt auch dann erhalten, wenn die Aufgabenanalysevorrichtung 1 ausgeschaltet ist.
Die Gemeinsame-Positions-Schätzeinheit 101 schätzt die gemeinsame Positions-Information eines Arbeiters aus Videodaten, die eine Aufgabe des Arbeiters enthalten.
Insbesondere durch die Verwendung einer öffentlich bekannten Technik (z.B., SUGANO, Kosuke, OKU, Kenta, KAWAGOE, Kyoji, „Motion Detection from Multidimensional Time-Series Data, and Classification Verfahren," DEIM Forum 2016 G4-5, oder UEZONO, Shohei, ONO, Satoshi, „Feature extraction using LSTM Autoencoder for multimodal sequential data," Materials for Conference of the Japanese Society for Artificial Intelligence, SIG-KBS-B802-01, 2018), schätzt die Gemeinsame-Positions-Schätzeinheit 101 als gemeinsame Positions-Information Zeitreihendaten, die sich auf die Koordinaten und den Winkel (von der Hand eingenommene Form) eines Gelenks, z.B. der Hand des Arbeiters, beziehen, aus den Videodaten, die von der Videodaten-Speichereinheit 201 gespeichert wurden, wobei den Videodaten Zeitinformationen hinzugefügt wurden.
Die folgenden Beschreibungen beziehen sich auf eine Situation, in der die Gemeinsame-Positions-Schätzeinheit 101 eine gemeinsame Positions-Information für die Hand eines Arbeiters schätzt. Die Gemeinsame-Positions-Schätzeinheit 101 kann jedoch auch die gemeinsame Position einer anderen Stelle des Arbeiters als der Hand auf dieselbe Weise schätzen wie die gemeinsame Position der Hand.
Die Bewegungs-Schätzeinheit 102 schätzt die Bewegungs-Information des Arbeiters auf der Grundlage der gemeinsamen Positions-Information, die von der Gemeinsame-Positions-Schätzeinheit 101 geschätzt wurden.
Zu beachten ist, dass im Folgenden eine Situation beschrieben wird, in der die Bewegungs-Schätzeinheit 102 Bewegungs-Information, die spezifisch für „MESSUNG MIT MESSSCHIEBER“ in 2A und "SCHRAUBE SPANNEN " in 2B sind, als Bewegungen des Arbeiters schätzt. Die Bewegungs-Schätzeinheit 102 schätzt jedoch Bewegungs-Information, die für andere Bewegungen als „MESSEN MIT MESSSCHIEBER“ und " SCHRAUBE SPANNEN " spezifisch sind, auf dieselbe Weise wie „MESSEN MIT MESSSCHIEBER“ und " SCHRAUBE SPANNEN".
Konkret gibt die Bewegungs-Schätzeinheit 102 beispielsweise die von der Bewegungs-Speichereinheit 202 als Eingabedaten gespeicherten gemeinsamen Positions-Information, die von der Gemeinsame-Positions-Schätzeinheit 101 geschätzt wurden und die die von der Hand angenommene Form angeben, in das trainierte Modell ein und schätzt die Bewegung (d.h. "MESSEN MIT MESSSCHIEBER " oder „SCHRAUBE SPANNEN“) des Arbeiters in den Videodaten. Alternativ kann die Bewegungs-Schätzeinheit 102 die Bewegung des Arbeiters in den Videodaten basierend auf der Regelbasis, die von der Bewegungs-Speichereinheit 202 gespeichert wurde, und den gemeinsamen Positions-Information, die von der Gemeinsame-Positions-Schätzeinheit 101 geschätzt wurden und die die von der Hand angenommene Form angeben, schätzen. Zusätzlich zu der geschätzten Bewegungs-Information des Arbeiters kann die Bewegungs-Schätzeinheit 102 zum Beispiel eine Wahrscheinlichkeit berechnen, die die Wahrscheinlichkeit der Form (gemeinsame Positionen der Hand) angibt, die von der Hand angenommen wird, die die durch die Bewegungs-Information angegebene Bewegung ausführt.
Wenn die von der Hand eingenommene Form, die von der Gemeinsame-Positions-Schätzeinheit 101 geschätzt wurde, mehrdeutig ist, wie in den 4A und 4B dargestellt, und somit zwei oder mehr ähnlichen gemeinsame Positionen (Gelenkpositiontionen) entspricht, die jeweils erreicht werden, wenn ein anderes Objekt (Werkzeug) gehalten wird, kann die Bewegungs-Schätzeinheit 102 eine Vielzahl von Bewegungen als Bewegungs-Information schätzen. 4A zeigt ein Beispiel für eine Form, die eine Hand annimmt, die einen Schraubenzieher hält. 4B zeigt ein Beispiel für eine Form, die eine Hand annimmt, die einen Messschieber hält, wobei die Form der Form in 4A ähnlich ist.
Auf der Grundlage der von der Bewegungs-Schätzeinheit 102 geschätzten Bewegungs-Information extrahiert die Bild-Extraktionseinheit 103 aus den Videodaten einen Bereich in den Videodaten, der sich auf ein Objekt (Werkzeug) bezieht, das mit der Bewegungs-Information verbunden ist.
Konkret erhält die Bild-Extraktionseinheit 103 beispielsweise von der Objekt-Positions-Beziehungs-Speichereinheit 203 relative Positionskoordinaten im Bildkoordinatensystem, wobei die relativen Positionskoordinaten der Bereich sind, der aus den Videodaten extrahiert werden soll und den Bewegungs-Information entspricht, die von der Bewegungs-Schätzeinheit 102 geschätzt wurden. Wie in den 2A und 2B gezeigt, extrahiert die Bild-Extraktionseinheit 103 Videodaten in einem rechteckigen Bereich, der durch eine gestrichelte Linie angezeigt wird, auf der Grundlage der relativen Positionskoordinaten, die in Bezug auf die Gelenkposition (Rechteck, das durch eine gestrichelte Linie angezeigt wird) der Hand des Arbeiters erhalten werden.
Wenn die von der Bewegungs-Schätzeinheit 102 geschätzten Bewegungs-Information eine Vielzahl von Bewegungen umfassen, erhält die Bild-Extraktionseinheit 103 im Bildkoordinatensystem relative Positions-Koordinaten, die den durch die Bewegungs-Information angezeigten einzelnen Bewegungen entsprechen, und extrahiert die Videodaten in einem rechteckigen Bereich auf der Grundlage der relativen Positions-Koordinaten, die in Bezug auf die gemeinsame Positionen der Hand des Arbeiters erhalten wurden und den einzelnen Bewegungen entsprechen.
5A und 5B zeigen ein Beispiel für Videodaten, die extrahiert werden, wenn die Bewegungs-Information eine Vielzahl von Bewegungen enthalten.
5A illustriert unter Bezugnahme auf die in 2B dargestellten Videodaten ein Beispiel für Videodaten, die extrahiert werden, wenn die von der Hand des Arbeiters angenommene Form eine Form ist, die bei der Verwendung eines Schraubendrehers angenommen wird. 5B zeigt unter Bezugnahme auf die in 2B dargestellten Videodaten ein Beispiel für Videodaten, die extrahiert werden, wenn die von der Hand des Arbeiters angenommene Form eine Form ist, die angenommen wird, wenn ein Messschieber verwendet wird.
Die Objekt-Erkennungseinheit 104 erkennt ein Objekt (Werkzeug) innerhalb des Bereichs der Videodaten, die von der Bild-Extraktionseinheit 103 extrahiert wurden.
Konkret extrahiert die Objekt-Erkennungseinheit 104 beispielsweise eine Bildmerkmalsmenge wie eine Kantenmenge für die extrahierten Videodaten unter Verwendung einer öffentlich bekannten Technik. Die Objekt-Erkennungseinheit 104 führt einen Abgleich zwischen dem extrahierten Bildmerkmalswert und den im Voraus in der Speichereinheit 20 gespeicherten Bildmerkmalswerten für einzelne Werkzeuge (Objekte) durch, um das Werkzeug (Objekt) in den extrahierten Videodaten zu erkennen. Die Objekt-Erkennungseinheit 104 kann auch eine Wahrscheinlichkeitsberechnung durchführen, die die Wahrscheinlichkeit des erkannten Werkzeugs (Objekts) angibt.
Wenn die von der Bewegungs-Schätzeinheit 102 geschätzten Bewegungs-Information beispielsweise eine Vielzahl von Bewegungen enthalten, kann die Objekt-Erkennungseinheit 104 aus dem extrahierten Bereich der Videodaten in 5A einen Schraubenzieher (Objekt) erkennen und bestimmen, dass die Wahrscheinlichkeit eines Schraubenziehers 90% beträgt. Da ein Messschieber (Werkzeug) aus dem extrahierten Bereich der Videodaten in 5B nicht erkannt werden kann, kann die Objekt-Erkennungseinheit 104 feststellen, dass die Wahrscheinlichkeit eines Messschiebers (Objekts) 3% beträgt.
Die Aufgaben-Identifikationseinheit 105 identifiziert die Aufgabe des Arbeiters auf der Grundlage des von der Objekt-Erkennungseinheit 104 erkannten Objekts (Werkzeugs).
Konkret identifiziert die Aufgaben-Identifikationseinheit 105 die Aufgabe des Arbeiters beispielsweise auf der Grundlage des von der Objekt-Erkennungseinheit 104 erkannten Werkzeugs (Objekts) und der von der Aufgaben-Speichereinheit 204 gespeicherten Aufgabentabelle. Die Aufgaben-Identifikationseinheit 105 kann die identifizierte Aufgabe auf einer Anzeigevorrichtung (nicht gezeigt) anzeigen, wie z.B. einer Flüssigkristallanzeige, die in der Aufgabenanalysevorrichtung 1 enthalten ist.
Wenn ein von der Objekt-Erkennungseinheit 104 erkanntes Werkzeug (Objekt) nicht in der von der Aufgaben-Speichereinheit 204 gespeicherten Aufgabentabelle registriert ist, kann die Aufgaben-Identifikationseinheit 105 eine Meldung, z.B. „Aufgabe nicht identifizierbar“, auf der Anzeigevorrichtung (nicht gezeigt) der Aufgabenanalysevorrichtung 1 anzeigen.
Wenn die von der Bewegungs-Schätzeinheit 102 geschätzten Bewegungs-Information eine Vielzahl von Bewegungen umfassen, schätzt die Aufgaben-Schätzeinheit 1051 eine Aufgabe mit der höchsten Wahrscheinlichkeit auf der Grundlage der Wahrscheinlichkeiten von Formen (gemeinsame Positionen der Hand), die jeweils von der Hand angenommen werden, die eine individuelle Bewegung aus der Vielzahl der von der Bewegungs-Schätzeinheit 102 geschätzten Bewegungen ausführt, und der Wahrscheinlichkeiten von Objekten, die für eine Vielzahl von Bereichen auf Videodaten erkannt wurden, die von der Objekt-Erkennungseinheit 104 extrahiert wurden.
In Bezug auf die in 5A dargestellten Videodaten, wenn beispielsweise die Wahrscheinlichkeit der Form (gemeinsame Position der Hand), die von der Hand angenommen wird, die die Bewegung „SCHRAUBE SPANNEN“ ausführt, von der Bewegungs-Schätzeinheit 102 geschätzt wird, 60 % beträgt und die Wahrscheinlichkeit eines von der Objekt-Erkennungseinheit 104 erkannten „SCHRAUBENZIEHERs“ 90 % beträgt, bestimmt die Aufgaben-Schätzeinheit 1051, dass die Wahrscheinlichkeit der Aufgabe „SCHRAUBE SPANNEN“ 0,5 (=0,6×0,9) beträgt. In Bezug auf die in 5B dargestellten Videodaten, wenn die Wahrscheinlichkeit der Form (gemeinsame Position der Hand), die die Bewegung „MESSEN MIT MESSSCHIEBER“ ausführt, von der Bewegungs-Schätzeinheit 102 geschätzt wird, 40% beträgt und die Wahrscheinlichkeit eines von der Objekt-Erkennungseinheit 104 erkannten " MESSSCHIEBER" 3% beträgt, bestimmt die Aufgaben-Schätzeinheit 1051, dass die Wahrscheinlichkeit der Aufgabe „MESSEN MIT MESSSCHIEBER“ 0,01 (=0,4×0,03) beträgt. Dann legt die Aufgaben-Schätzeinheit 1051 die Aufgabe „SCHRAUBE SPANNEN“, die die höchste Wahrscheinlichkeit von 0,5 hat, als Aufgabe des Arbeiters fest.
<Analyse-Verarbeitung durch Aufgabenanalysevorrichtung 1>
Als Nächstes werden die Betriebe beschrieben, die mit der Aufgabenanalysevorrichtung 1 gemäß der ersten Ausführungsform durchgeführt werden.
6 ist ein Flussdiagramm, das die von der Aufgabenanalysevorrichtung 1 durchgeführte Analyseverarbeitung illustriert. Der angegebene Ablauf wird wiederholt durchgeführt, während Videodaten von der Kamera 2 eingegeben werden.
In Schritt S1 schätzt die Gemeinsame-Positions-Schätzeinheit 101 die gemeinsame Positions-Information für die Hand eines Arbeiters aus Videodaten, die die Aufgabe des Arbeiters enthalten.
In Schritt S2 schätzt die Bewegungs-Schätzeinheit 102 die Bewegungs-Information des Arbeiters auf der Grundlage der in Schritt S1 geschätzten gemeinsamen Positions-Information.
In Schritt S3 extrahiert die Bild-Extraktionseinheit 103 einen Bereich auf den Videodaten, der sich auf ein Objekt (Werkzeug) bezieht, das mit einer Bewegung verbunden ist, die in den in Schritt S2 geschätzten Bewegungs-Information enthalten ist. Wenn die in Schritt S2 geschätzten Bewegungs-Information eine Vielzahl von Bewegungen enthalten, extrahiert die Bild-Extraktionseinheit 103 für jede der Bewegungen einen Bereich in den Videodaten, der zu einem zugehörigen Objekt (Werkzeug) gehört.
In Schritt S4 erkennt die Objekt-Erkennungseinheit 104 ein Objekt (Werkzeug) innerhalb des Bereichs der Videodaten, die in Schritt S3 extrahiert wurden. Wenn in Schritt S3 mehrere Videodaten extrahiert werden, erkennt die Objekt-Erkennungseinheit 104 ein Objekt (Werkzeug) innerhalb eines Bereichs in jedem der mehreren Videodaten.
In Schritt S5 identifiziert die Aufgaben-Identifikationseinheit 105 die Aufgabe des Arbeiters auf der Grundlage des in Schritt S4 erkannten Werkzeugs (Objekts) und der von der Aufgaben-Speichereinheit 204 gespeicherten Aufgabentabelle. Wenn die Bewegungs-Schätzeinheit 102 in Schritt S2 eine Vielzahl von Bewegungen geschätzt hat, identifiziert die Aufgaben-Schätzeinheit 1051 eine Aufgabe mit der höchsten Wahrscheinlichkeit als die Aufgabe des Arbeiters auf der Grundlage der Wahrscheinlichkeiten von Formen (gemeinsamen Positionen der Hand), die jeweils von der Hand angenommen werden, die eine individuelle Bewegung aus der Vielzahl der in Schritt S2 geschätzten Bewegungen ausführt, und der Wahrscheinlichkeiten von Objekten, die in Schritt S4 für die Vielzahl der in Schritt S3 extrahierten Videodaten erkannt wurden.
In Schritt S6 zeigt die Aufgaben-Identifikationseinheit 105 die in Schritt S5 identifizierte Aufgabe auf der Anzeigevorrichtung (nicht gezeigt) der Aufgabenanalysevorrichtung 1 an. Wenn das in Schritt S4 erkannte Werkzeug (Objekt) nicht in der von der Aufgaben-Speichereinheit 204 gespeicherten Aufgabentabelle registriert ist, zeigt die Aufgaben-Identifikationseinheit 105 auf der Anzeigevorrichtung (nicht gezeigt) der Aufgabenanalysevorrichtung 1 eine Meldung an, z.B. „Aufgabe nicht identifizierbar“.
Wie oben beschrieben, schätzt die Aufgabenanalysevorrichtung 1 gemäß der ersten Ausführungsform gemeinsame Positions-Information des Arbeiters aus Videodaten, die die Aufgabe des Arbeiters enthalten, schätzt Bewegungs-Information des Arbeiters auf der Grundlage der geschätzten gemeinsamen Positions-Information des Arbeiters, extrahiert aus den Videodaten auf der Grundlage der geschätzten Bewegungs-Information des Arbeiters einen Bereich in den Videodaten, der zu einem Objekt gehört, das mit den Bewegungs-Information verbunden ist, erkennt das Objekt aus dem extrahierten Bereich in den Videodaten und identifiziert die Aufgabe des Arbeiters anhand des erkannten Objekts. So kann die Aufgabenanalysevorrichtung 1 ein Objekt aus einem Bild erkennen, um eine Aufgabe mit geringem Rechenaufwand zu klassifizieren.
Die Aufgabenanalysevorrichtung 1 kann auch mit einer preiswerten Vorrichtung implementiert werden, ohne dass z.B. ein teurer Grafikprozessor erforderlich ist.
Die Aufgabenanalysevorrichtung 1 kann das Modell der Aufgabenklassifizierung leicht interpretieren, und der Benutzer kann davon überzeugt werden, es zu benutzen. Wenn es zum Beispiel Probleme mit der Genauigkeit bei der Klassifizierung von Aufgaben gibt, können die Probleme in solche unterteilt werden, ob die Genauigkeit bei der Objekterkennung gering ist und solche, ob die Genauigkeit bei der Erkennung einer charakteristischen Gelenkposition einer Hand gering ist, so dass das Klassifizierungsmodell leicht erweitert und verbessert werden kann.
Bislang wurde die erste Ausführungsform beschrieben.
Im Folgenden wird die zweite Ausführungsform beschrieben. Die erste Ausführungsform beinhaltet: Schätzen von gemeinsamen Positions-Information, die den Arbeiter betreffen, aus Videodaten, die die Aufgabe eines Arbeiters enthalten; Schätzen von Bewegungs-Information, die den Arbeiter betreffen, auf der Basis der geschätzten gemeinsamen Positions-Information, die den Arbeiter betreffen; Extrahieren eines Bereichs aus den Videodaten auf der Basis der geschätzten Bewegungs-Information, die den Arbeiter betreffen, der zu einem Objekt gehört, das mit den Bewegungs-Information verbunden ist; Erkennen des Objekts aus dem extrahierten Bereich aus den Videodaten; und Identifizieren der Aufgabe des Arbeiters aus dem erkannten Objekt. Die zweite Ausführungsform unterscheidet sich von der ersten Ausführungsform dadurch, dass sie folgendes beinhaltet: Erkennen eines Objekts aus den Videodaten, die die Aufgabe eines Arbeiters enthalten, und Schätzen der gemeinsamen Positions-Information des Arbeiters aus den Videodaten; Erfassen, auf der Grundlage der geschätzten gemeinsamen Positions-Information des Arbeiters, ob ein Bildbereich, der eine gemeinsame Position des Arbeiters enthält, in einen Bildbereich, der das erkannte Objekt enthält, eingetreten ist und diesen dann verlassen hat; Extrahieren eines Bereichs in den Videodaten aus den Videodaten auf der Grundlage des Ergebnisses der Erfassung, der zu dem aus den Videodaten erfassten Objekt gehört; Durchführen einer Objekterkennung für den extrahierten Bereich in den Videodaten; und periodisches Erfassen des Objekts, wenn das Objekt nicht innerhalb des Bereichs in den Videodaten erkannt werden kann, um die Aufgabe des Arbeiters auf der Grundlage einer Änderung einer Koordinate des Objekts zu bestimmen.
So kann die Aufgabenanalysevorrichtung 1A gemäß der zweiten Ausführungsform ein Objekt aus einem Bild erkennen, um eine Aufgabe mit einem geringen Rechenaufwand zu klassifizieren.
Im Folgenden wird die zweite Ausführungsform beschrieben.
<Zweite Ausführungsform>
7 ist ein funktionales Blockdiagramm, das ein funktionales Konfigurationsbeispiel eines Aufgabenanalysesystems gemäß der zweiten Ausführungsform zeigt. Gleiche Elemente, die ähnliche Funktionen wie die Elemente des Aufgabenanalysesystems 100 in 1 haben, sind durch gleiche Bezugszeichen gekennzeichnet, und detaillierte Beschreibungen dieser Elemente sind hier nicht enthalten.
Wie in 7 dargestellt, umfasst das Aufgabenanalysesystem 100 eine Aufgabenanalysevorrichtung 1A und eine Kamera 2.
Die Kamera 2 hat die gleichen Funktionen wie die Kamera 2 in der ersten Ausführungsform.
<Aufgabenanalysevorrichtung 1A>
Wie in 7 dargestellt, umfasst die Aufgabenanalysevorrichtung 1A eine Steuereinheit 10a und eine Speichereinheit 20a. Die Steuereinheit 10a umfasst eine Gemeinsame-Positions-Schätzeinheit 101, eine Bewegungs-Schätzeinheit 102, eine Bild-Extraktionseinheit 103a, eine Objekt-Erkennungseinheit 104a, eine Aufgaben-Identifikationseinheit 105, eine Objekt-Detektionseinheit 106, eine Objektbereichs-Eintritts-/Austritts-Erfassungseinheit 107 und eine Objektdetektions-Aktivierungseinheit 108. Die Aufgaben-Identifikationseinheit 105 umfasst eine Aufgaben-Schätzeinheit 1051a.
Die Speichereinheit 20a ist eine Vorrichtung wie z.B. ein ROM oder eine HDD. Die Speichereinheit 20a speichert z.B. ein Betriebssystem und ein Anwendungsprogramm, das von der Steuereinheit 10a (im Folgenden beschrieben) ausgeführt wird. Die Speichereinheit 20a umfasst eine Videodaten-Speichereinheit 201, eine Bewegungs-Speichereinheit 202, eine Objekt-Positions-Beziehungs-Speichereinheit 203, eine Aufgaben-Speichereinheit 204 und eine Objektkoordinaten-Speichereinheit 205.
Die Videodaten-Speichereinheit 201, die Bewegungs-Speichereinheit 202, die Objekt-Positions-Beziehungs-Speichereinheit 203 und die Aufgaben-Speichereinheit 204 speichern die gleichen Daten wie die Videodaten-Speichereinheit 201, die Bewegungs-Speichereinheit 202, die Objekt-Positions-Beziehungs-Speichereinheit 203 und die Aufgaben-Speichereinheit 204 in der ersten Ausführungsform.
Die Objektkoordinaten-Speichereinheit 205 speichert die Koordinaten eines Werkzeugs (Objekts) in einem Bildkoordinatensystem, wobei das Werkzeug (Objekt) von der Objekt-Detektionseinheit 106 (nachfolgend beschrieben) aus den Videodaten erkannt wird.
Die Steuereinheit 10a enthält z.B. eine CPU, ein ROM, ein RAM und einen CMOS-Speicher, die dem Fachmann bekannt sind und so konfiguriert sind, dass sie über einen Bus miteinander kommunizieren können.
Die CPU ist ein Prozessor, der die Gesamtheit der Aufgabenanalysevorrichtung 1A steuert. Die CPU liest über den Bus ein Systemprogramm und ein Anwendungsprogramm, die im ROM gespeichert sind, und steuert die Gesamtheit der Aufgabenanalysevorrichtung 1A in Übereinstimmung mit dem Systemprogramm und dem Anwendungsprogramm. Wie in 7 gezeigt, ist die Steuereinheit 10a so konfiguriert, dass sie die Funktionen der Gemeinsame-Positions-Schätzeinheit 101, der Bewegungs-Schätzeinheit 102, der Bild-Extraktionseinheit 103a, der Objekt-Erkennungseinheit 104a, der Aufgaben-Identifikationseinheit 105, der Objekt-Detektionseinheit 106, der Objektbereichs-Eintritts-/Austritts-Erfassungseinheit 107 und der Objektdetektions-Aktivierungseinheit 108 ausführt. Die Aufgaben-Identifikationseinheit 105 ist so konfiguriert, dass sie die Funktion der Aufgaben-Schätzeinheit 1051a ausführt.
Die Gemeinsame-Positions-Schätzeinheit 101, die Bewegungs-Schätzeinheit 102 und die Aufgaben-Identifikationseinheit 105 haben äquivalente Funktionen wie die Gemeinsame-Positions-Schätzeinheit 101, die Bewegungs-Schätzeinheit 102 und die Aufgaben-Identifikationseinheit 105 in der ersten Ausführungsform.
Wie die Bild-Extraktionseinheit 103 in der ersten Ausführungsform extrahiert die Bild-Extraktionseinheit 103a auf der Grundlage der von der Bewegungs-Schätzeinheit 102 geschätzten Bewegungs-Information aus den Videodaten einen Bereich in den Videodaten, der sich auf das Objekt (Werkzeug) bezieht, das mit der Bewegungs-Information verbunden ist. In der Zwischenzeit extrahiert die Bild-Extraktionseinheit 103a auf der Grundlage eines Ergebnisses der Erfassung durch die Objektbereichs-Eintritts-/Austritts-Erfassungseinheit 107 (nachfolgend beschrieben) aus den Videodaten den Bereich in den Videodaten, der zu dem Objekt (Werkzeug) gehört, das von der Objekt-Detektionseinheit 106 (nachfolgend beschrieben) erfasst wurde.
Wie bei der Objekt-Erkennungseinheit 104 in der ersten Ausführungsform erkennt die Objekt-Erkennungseinheit 104a ein Objekt (Werkzeug) in dem Bereich der Videodaten, die von der Bild-Extraktionseinheit 103a extrahiert wurden. In der Zwischenzeit erkennt die Objekt-Erkennungseinheit 104a auf der Grundlage des Ergebnisses der Erkennung durch die Objektbereichs-Eintritts-/Austritts-Erfassungseinheit 107 (im Folgenden beschrieben) ein Objekt (Werkzeug) innerhalb des Bereichs der Videodaten, die von der Bild-Extraktionseinheit 103a extrahiert wurden.
Die Aufgaben-Schätzeinheit 1051a identifiziert eine Aufgabe auf der Grundlage einer Änderung der Koordinaten eines Werkzeugs (Objekts), die von der Objekt-Detektionseinheit 106 (im Folgenden beschrieben) erkannt wird. Zu beachten ist, dass die Betriebsmodi der Aufgaben-Schätzeinheit 1051a im Folgenden beschrieben werden.
Die Objekt-Detektionseinheit 106 erkennt ein Werkzeug (Objekt) aus Videodaten, die die Aufgabe eines Arbeiters enthalten.
8 zeigt ein Beispiel von Videodaten mit der Aufgabe eines Arbeiters.
In den in 8 dargestellten Videodaten ist ein Messschieber auf dem Tisch platziert, wird aber vom Arbeiter nicht benutzt. Mithilfe einer allgemein bekannten Technik extrahiert die Objekt-Detektionseinheit 106 ein Bildmerkmal, wie z.B. eine Kante, für das gesamte Bild der in 8 dargestellten Videodaten. Die Objekt-Detektionseinheit 106 führt einen Abgleich zwischen dem extrahierten Bildmerkmal und den in der Speichereinheit 20 gespeicherten Bildmerkmalen für einzelne Werkzeuge (Objekte) durch, um das Werkzeug (Objekt) in den Videodaten zu erkennen, und ermittelt im Bildkoordinatensystem die Koordinaten eines Bildbereichs (Rechteck, das durch eine gestrichelte, gepunktete Linie gekennzeichnet ist), der das erkannte Werkzeug (Objekt) enthält. Die Objekt-Detektionseinheit 106 speichert in der Objektkoordinaten-Speichereinheit 205 die erhaltenen Koordinaten des Bildbereichs (durch eine gestrichelte, gepunktete Linie angezeigtes Rechteck) im Bildkoordinatensystem.
Die anfängliche Erkennungsverarbeitung durch die Objekt-Detektionseinheit 106 kann die einzige Erkennungsverarbeitung sein, die dabei durchgeführt wird.
Auf der Grundlage der gemeinsamen Positions-Information, die für den Arbeiter von der Gemeinsame-Positions-Schätzeinheit 101 geschätzt werden, erkennt die Objektbereichs-Eintritts-/Austritts-Erfassungseinheit 107, ob eine gemeinsame Position des Arbeiters in den Bildbereich, der das von der Objekt-Detektionseinheit 106 erkannte Werkzeug (Objekt) enthält, eingetreten ist und ihn dann verlassen hat.
Konkret erfasst die Objektbereichs-Eintritts-/Austritts-Erfassungseinheit 107 beispielsweise auf der Grundlage der von der Positions-Schätzeinheit 101 geschätzten gemeinsamen Positions-Information die Position eines Bildbereichs (durch eine gestrichelte Linie gekennzeichnetes Rechteck) einschließlich der gemeinsamen Position der Hand des Arbeiters in den Videodaten in 8. Die Objektbereichs-Eintritts-/Austritts-Erfassungseinheit 107 bestimmt, ob die Position des Bildbereichs (Rechteck, das durch eine gestrichelte Linie angezeigt wird), der die gemeinsamen Position der Hand des Arbeiters enthält, in die Position des Bildbereichs (Rechteck, das durch eine gestrichelte, gepunktete Linie angezeigt wird), der das von der Objekt-Detektionseinheit 106 erkannte Werkzeug (Objekt) enthält, eingetreten ist und diese dann verlassen hat (d.h. sie hat sie bedeckt und sich dann von ihr entfernt). Im Fall von 8 beispielsweise ist der Bildbereich (Rechteck, das durch eine gestrichelte Linie angezeigt wird) der gemeinsamen Position der Hand des Arbeiters von der Position des Bildbereichs (Rechteck, das durch eine gestrichelte, gepunktete Linie angezeigt wird), der das Werkzeug (Objekt) enthält, getrennt. Daher stellt die Objektbereichs-Eintritts-/Austritts-Erfassungseinheit 107 fest, dass die gemeinsame Position des Arbeiters den Bildbereich des Werkzeugs (Objekts) nicht betreten und dann verlassen hat.
In Situationen wie den in 9 und 10 dargestellten stellt die Objektbereichs-Eintritts-/Austritts-Erfassungseinheit 107 dagegen fest, dass der Bildbereich (Rechteck, das durch eine gestrichelte Linie angezeigt wird) der Gelenkposition der Hand des Arbeiters in den Bildbereich (Rechteck, das durch eine gestrichelte, gepunktete Linie angezeigt wird), der das Werkzeug (Objekt) enthält, eingetreten ist und diesen dann verlassen hat. In diesem Fall extrahiert die Bild-Extraktionseinheit 103a den Bildbereich (durch eine gestrichelte Linie gekennzeichnetes Rechteck) des in 10 dargestellten Objekts aus den Videodaten, und die Objekt-Erkennungseinheit 104a erkennt das Objekt (Werkzeug) innerhalb des Bereichs auf den Videodaten, der von der Bild-Extraktionseinheit 103a extrahiert wurde.
Wenn die Objekt-Erkennungseinheit 104a das von der Objekt-Detektionseinheit 106 erkannte Werkzeug (Objekt) nicht erkennen kann, veranlasst die Objektdetektions-Aktivierungseinheit 108 die Objekt-Detektionseinheit 106, das Werkzeug (Objekt) periodisch zu erkennen.
Wenn beispielsweise die Objekt-Erkennungseinheit 104a das von der Objekt-Detektionseinheit 106 erkannte Werkzeug (Objekt) innerhalb des Bildbereichs in 10, der durch ein Rechteck mit einer gestrichelten Linie gekennzeichnet ist, nicht erkennen kann, stellt die Objektdetektions-Aktivierungseinheit 108 fest, dass der Arbeiter eine Aufgabe mit dem Werkzeug (Objekt) begonnen hat. Dann veranlasst die Objektdetektions-Aktivierungseinheit 108 die Objekt-Detektionseinheit 106, das Werkzeug (Objekt) in regelmäßigen Abständen (z.B. jede Sekunde) aus der Gesamtheit der Videodaten in 10 zu erkennen. In diesem Fall erkennt die Aufgaben-Schätzeinheit 1051a, wenn sich die Position des Bildbereichs (Rechteck, das durch eine Zweipunkt-Kettenlinie angezeigt wird) des erkannten Werkzeugs (Objekts) wie in 11 dargestellt geändert hat, dass der Arbeiter mit Hilfe des Werkzeugs (Objekts) die von der Aufgaben-Identifikationseinheit 105 identifizierte Aufgabe ausführt.
Wenn sich die Position des Bildbereichs (Rechteck mit gestrichelter Linie) des Werkzeugs (Objekts) nicht verändert hat (oder das Werkzeug (Objekt) nicht erkannt werden kann) und von dem Bildbereich (Rechteck mit gestrichelter Linie) der Hand des Arbeiters getrennt ist, wobei sich der Bildbereich (Rechteck mit gestrichelter Linie) der Hand des Arbeiters bewegt, erkennt die Aufgaben-Schätzeinheit 1051a, dass der Arbeiter die Verwendung des Werkzeugs (Objekts) beendet hat. In diesem Fall beendet die Objektdetektions-Aktivierungseinheit 108 die periodische Objekterkennung durch die Objekt-Detektionseinheit 106.
Angesichts der Tatsache, dass die Verarbeitung der Objekterkennung durch die Objekt-Detektionseinheit 106 stark belastet wird, kann die Aufgabenanalysevorrichtung 1A dementsprechend die Anzahl der Verarbeitungen der Objekterkennung verringern, indem sie dieselbe mittels Objekterkennung und gemeinsamer Positions-Information nur dann durchführt, wenn der Arbeiter ein Werkzeug (Objekt) verwendet.
Außerdem kann die Aufgabenanalysevorrichtung 1A feststellen, ob der Arbeiter bei der identifizierten Aufgabe des Arbeiters ein Werkzeug (Objekt) verwendet.
<Analyse-Verarbeitung durch Aufgabenanalysevorrichtung 1A>
Als nächstes werden die Betriebe beschrieben, die die Aufgabenanalysevorrichtung 1A gemäß der zweiten Ausführungsform durchführt.
12 ist ein Flussdiagramm, das die von der Aufgabenanalysevorrichtung 1A durchgeführte Analyseverarbeitung illustriert. Der angegebene Ablauf wird wiederholt durchgeführt, während Videodaten von der Kamera 2 eingegeben werden.
In Schritt S11 erkennt die Objekt-Detektionseinheit 106 ein Objekt (Werkzeug) aus der Gesamtheit der Videodaten, einschließlich der Aufgabe eines Arbeiters.
In Schritt S12 schätzt die Gemeinsame-Positions-Schätzeinheit 101 die gemeinsame Positions-Information für die Hand des Arbeiters aus den Videodaten.
In Schritt S13, wenn die Objektbereichs-Eintritts-/Austritts-Erfassungseinheit 107 festgestellt hat, dass der Bildbereich einer Gelenkposition der Hand des Arbeiters in einen Bildbereich, der das Objekt (Werkzeug) enthält, eingetreten ist und diesen wieder verlassen hat, extrahiert die Bild-Extraktionseinheit 103a einen Bereich aus den Videodaten, der sich auf das in Schritt S11 erfasste Objekt (Werkzeug) bezieht.
In Schritt S14 erkennt die Objekt-Erkennungseinheit 104a das Objekt (Werkzeug) innerhalb des Bereichs auf den Videodaten, die in Schritt S13 extrahiert wurden.
In Schritt S15 bestimmt die Objektdetektions-Aktivierungseinheit 108, ob die Objekt-Erkennungseinheit 104a in Schritt S14 das in Schritt S11 detektierte Objekt (Werkzeug) erkannt hat. Wenn die Objekt-Erkennungseinheit 104a das detektierte Objekt (Werkzeug) erkannt hat, bedeutet dies, dass das Objekt (Werkzeug) an der ursprünglichen Position vorhanden ist (noch nicht verwendet wurde), so dass der Prozess bei Schritt S15 bleibt. Wenn die Objekt-Erkennungseinheit 104a das erkannte Objekt (Werkzeug) nicht erkannt hat, wechselt der Prozess zu Schritt S16.
In Schritt S16 veranlasst die Objektdetektions-Aktivierungseinheit 108 die Objekt-Detektionseinheit 106, periodisch eine Erkennungsverarbeitung für das Objekt (Werkzeug) durchzuführen.
In Schritt S17 ermittelt die Aufgaben-Schätzeinheit 1051a, ob sich die Position des Bildbereichs des in Schritt S16 erkannten Objekts (Werkzeugs) geändert hat. Wenn sich die Position des Bildbereichs des erkannten Objekts (Werkzeugs) geändert hat, geht der Prozess zu Schritt S18 über. Wenn sich die Position des Bildbereichs des erkannten Objekts (Werkzeugs) nicht geändert hat, wechselt der Prozess zu Schritt S19.
In Schritt S18 identifiziert die Aufgaben-Schätzeinheit 1051a, dass der Arbeiter eine Aufgabe unter Verwendung des Werkzeugs (Objekts) durchführt.
In Schritt S19, wenn der Bildbereich des Objekts (Werkzeugs) vom Bildbereich der Hand des Arbeiters getrennt ist und der Bildbereich der Hand des Arbeiters sich bewegt, identifiziert die Aufgaben-Schätzeinheit 1051a, dass der Arbeiter eine Aufgabe ausführt, ohne das Objekt (Werkzeug) zu benutzen.
In Schritt S20 veranlasst die Objektdetektions-Aktivierungseinheit 108 die Objekt-Detektionseinheit 106, die Erkennungsverarbeitung für das Objekt (Werkzeug) zu beenden. In der Zwischenzeit beendet die Aufgabenanalysevorrichtung 1A die Analyseverarbeitung.
Wie oben beschrieben, detektiert die Aufgabenanalysevorrichtung 1A gemäß der zweiten Ausführungsform ein Objekt aus Videodaten, die die Aufgabe eines Arbeiters enthalten, schätzt gemeinsame Positions-Information, die den Arbeiter betreffen, aus den Videodaten ab, erfasst auf der Grundlage der geschätzten gemeinsamen Positions-Information, die den Arbeiter betreffen, ob ein Bildbereich, der eine gemeinsame Position des Arbeiters enthält, in einen Bildbereich, der das detektierte Objekt enthält, eingetreten ist und ihn dann verlassen hat, aus den Videodaten auf der Grundlage des Ergebnisses der Erfassung einen Bereich auf den Videodaten extrahiert, der zu dem aus den Videodaten erfassten Objekt gehört, eine Objekterkennung für den extrahierten Bereich auf den Videodaten durchführt und das Objekt periodisch erfasst, wenn das Objekt nicht innerhalb des Bereichs auf den Videodaten erkannt werden kann, um die Aufgabe des Arbeiters auf der Grundlage einer Änderung einer Koordinate des Objekts zu bestimmen. Auf diese Weise kann die Aufgabenanalysevorrichtung 1A ein Objekt aus einem Bild erkennen, um eine Aufgabe mit einem geringen Rechenaufwand zu klassifizieren.
Die Aufgabenanalysevorrichtung 1A kann auch mit einer preiswerten Vorrichtung implementiert werden, ohne dass z.B. ein teurer Grafikprozessor erforderlich ist.
Die Aufgabenanalysevorrichtung 1A kann das Modell der Aufgabenklassifizierung leicht interpretieren, und der Benutzer kann davon überzeugt werden, es zu benutzen. Wenn es zum Beispiel Probleme mit der Genauigkeit bei der Klassifizierung von Aufgaben gibt, können die Probleme in solche unterteilt werden, ob die Genauigkeit bei der Objekterkennung gering ist und solche, ob die Genauigkeit bei der Erkennung einer charakteristischen Gelenkposition einer Hand gering ist, so dass das Klassifizierungsmodell leicht erweitert und verbessert werden kann.
In Anbetracht der Tatsache, dass die Verarbeitung der Objekterkennung bei hoher Belastung durchgeführt wird, kann die Aufgabenanalysevorrichtung 1A die Anzahl der Verarbeitungen der Objekterkennung verringern, indem sie diese mittels Objekterkennung und gemeinsamer Positions-Information nur dann durchführt, wenn der Arbeiter ein Objekt benutzt.
Außerdem kann die Aufgabenanalysevorrichtung 1A feststellen, ob der Arbeiter ein Objekt in der identifizierten Aufgabe des Arbeiters verwendet.
Bislang wurde die zweite Ausführungsform beschrieben.
Obwohl die erste und zweite Ausführungsform beschrieben wurden, sind die Aufgabenanalysevorrichtungen 1 und 1A nicht auf die oben beschriebenen Ausführungsformen beschränkt und umfassen beispielsweise Variationen und Verbesserungen, solange Objekte erreicht werden können.
<Erste Variation>
In der ersten und zweiten Ausführungsform sind die Aufgabenanalysevorrichtungen 1 und 1A jeweils mit einer Kamera 2 verbunden. Die vorliegende Erfindung ist jedoch nicht darauf beschränkt. Beispielsweise können die Aufgabenanalysevorrichtungen 1 und 1A jeweils mit zwei oder mehr, d.h. einer Vielzahl von Kameras 2 verbunden sein.
<Zweite Variation>
In den oben beschriebenen Ausführungsformen haben die Aufgabenanalysevorrichtungen 1 und 1A zum Beispiel alle Funktionen. Die vorliegende Erfindung ist jedoch nicht darauf beschränkt. Beispielsweise kann ein Server einige oder alle der Gemeinsame-Positions-Schätzeinheit 101, der Bewegungs-Schätzeinheit 102, der Bild-Extraktionseinheit 103, der Objekt-Erkennungseinheit 104, der Aufgaben-Identifikationseinheit 105 und der Aufgaben-Schätzeinheit 1051 Aufgabenanalysevorrichtung 1 enthalten, oder einige oder alle der Gemeinsame-Positions-Schätzeinheit 101, der Bewegungs-Schätzeinheit 102, der Bild-Extraktionseinheit 103a, der Objekt-Erkennungseinheit 104a, der Aufgaben-Identifikationseinheit 105, der Aufgaben-Schätzeinheit 1051a, der Objekt-Detektionseinheit 106, der Objektbereichs-Eintritts-/Austritts-Erfassungseinheit 107 und der Objektdetektions-Aktivierungseinheit 108 der Aufgabenanalysevorrichtung 1A. Die Funktionen der Aufgabenanalysevorrichtungen 1 und 1A können z.B. durch virtuelle Serverfunktionen mit einer Cloud-Technologie implementiert werden.
Darüber hinaus kann es sich bei den Aufgabenanalysevorrichtungen 1 und 1A um ein verteiltes Verarbeitungssystem handeln, bei dem die Funktionen der Aufgabenanalysevorrichtungen 1 und 1A gegebenenfalls auf eine Vielzahl von Servern verteilt sind.
Die in den Aufgabenanalysevorrichtungen 1 und 1A der ersten und zweiten Ausführungsform enthaltenen Funktionen können jeweils durch Hardware, Software oder eine Kombination davon implementiert sein. In diesem Zusammenhang bedeutet die Formulierung „durch Software implementiert“, dass sie durch einen Computer implementiert werden, der ein Programm liest.
Das Programm kann auf verschiedenen Arten von nicht-übertragbaren, computerlesbaren Medien gespeichert und dem Computer zugeführt werden. Zu den nicht-transitorischen, computerlesbaren Medien gehören verschiedene Arten von materiellen Speichermedien. Beispiele für nicht-transitorische computerlesbare Medien sind magnetische Aufzeichnungsmedien (z.B. flexible Platten, Magnetbänder, Festplattenlaufwerke), magneto-optische Aufzeichnungsmedien (z.B. magneto-optische Platten), Festwertspeicher (CD-ROMs), CD-Rs, CD-R/Ws und Halbleiterspeicher (z.B. Masken-ROM, programmierbares ROM (PROM), löschbares PROM (EPROM), Flash-ROM, RAM). Das Programm kann durch verschiedene Arten von transitorischen, computerlesbaren Medien an einen Computer geliefert werden. Beispiele für transitorische computerlesbare Medien sind elektrische Signale, optische Signale und elektromagnetische Wellen. Die transitorischen computerlesbaren Medien können Programme über drahtlose Kommunikationswege oder drahtgebundene Kommunikationswege wie elektrische Drähte und optische Fasern an einen Computer liefern.
Die Schritte zur Beschreibung der auf dem Aufzeichnungsmedium aufgezeichneten Programme umfassen Prozesse, die in zeitlicher Reihenfolge ausgeführt werden, und Prozesse, die nicht unbedingt in zeitlicher Reihenfolge, sondern parallel oder getrennt voneinander ausgeführt werden.
Dementsprechend kann die Aufgabenanalysevorrichtung der vorliegenden Offenbarung verschiedene Arten und Formen von Ausführungsformen mit der folgenden Konfiguration implementieren.

(1) Die Aufgabenanalysevorrichtung (1) der vorliegenden Offenbarung ist eine Aufgabenanalysevorrichtung zum Analysieren einer Aufgabe eines Arbeiters, wobei die Aufgabenanalysevorrichtung umfasst: eine Gemeinsame-Positions-Schätzeinheit 101, die so konfiguriert ist, dass sie zu dem Arbeiter gehörende gemeinsame Positions-Information aus Videodaten schätzt, die die Aufgabe des Arbeiters enthalten; eine Bewegungs-Schätzeinheit 102, die so konfiguriert ist, dass sie zu dem Arbeiter gehörende Bewegungs-Information auf der Grundlage der von der Gemeinsame-Positions-Schätzeinheit 101 geschätzten gemeinsamen Positions-Information schätzt; eine Bild-Extraktionseinheit 103, die so konfiguriert ist, dass sie aus den Videodaten auf der Grundlage der von der Bewegungs-Schätzeinheit 102 geschätzten Bewegungs-Information einen Bereich auf den Videodaten extrahiert, der zu einem mit den Bewegungs-Information assoziierten Objekt gehört; eine Objekt-Erkennungseinheit 104, die so konfiguriert ist, dass sie das Objekt innerhalb des Bereichs auf den Videodaten erkennt, der von der Bild-Extraktionseinheit 103 extrahiert worden ist; und eine Aufgaben-Identifikationseinheit 105, die so konfiguriert ist, dass sie die Aufgabe des Arbeiters auf der Grundlage des von der Objekt-Erkennungseinheit 104 erkannten Objekts identifiziert.

Die Aufgabenanalysevorrichtung 1 kann ein Objekt aus einem Bild erkennen, um eine Aufgabe mit einem geringen Rechenaufwand zu klassifizieren.
(2) In der in Abschnitt (1) beschriebenen Aufgabenanalysevorrichtung 1, wenn die Bewegungs-Schätzeinheit 102 auf der Grundlage von gemeinsamen Positions-Information Bewegungs-Information bezüglich des Arbeiters schätzt, die eine Vielzahl von Bewegungen umfassen, extrahiert die Bild-Extraktionseinheit 103 eine Vielzahl von Bereichen auf Videodaten für jede der Vielzahl von geschätzten Bewegungen; die Objekt-Erkennungseinheit 104 erkennt ein Objekt für jeden der Vielzahl von Bereichen auf den Videodaten; und die Aufgaben-Identifikationseinheit 105 kann eine Aufgaben-Schätzeinheit 1051 enthalten, die so konfiguriert ist, dass sie eine Aufgabe mit der höchsten Wahrscheinlichkeit auf der Basis der Wahrscheinlichkeit jeder der mehreren von der Bewegungs-Schätzeinheit 102 geschätzten Bewegungen und der Wahrscheinlichkeit des für jeden der mehreren Bereiche auf den Videodaten von der Objekt-Erkennungseinheit 104 erkannten Objekts schätzt.
Dementsprechend kann die Aufgabenanalysevorrichtung 1 die Aufgabe eines Arbeiters auch dann genau identifizieren, wenn die Form der Hand nicht eindeutig ist.
(3) Die in Abschnitt (1) oder (2) beschriebene Aufgabenanalysevorrichtung 1 kann ferner umfassen: eine Bewegungs-Speichereinheit 202, die so konfiguriert ist, dass sie eine Regelbasis oder ein trainiertes Modell zur Ausgabe von den Arbeiter betreffenden Bewegungs-Information speichert, die den von der Positions-Schätzeinheit 101 geschätzten gemeinsamen Positions-Information entsprechen; eine Objekt-Positions-Beziehungs-Speichereinheit 203, die so konfiguriert ist, dass sie im Voraus auf der Basis von den Arbeiter betreffenden Bewegungs-Information einen Bereich von Videodaten speichert, der ein mit den Bewegungs-Information verbundenes Objekt enthält; und eine Aufgaben-Speichereinheit 204, die so konfiguriert ist, dass sie eine Aufgaben-Tabelle speichert, in der das von der Objekt-Erkennungseinheit 104 erkannte Objekt im Voraus auf die Aufgabe des Arbeiters abgebildet wird.
Dementsprechend einfach interpretiert die Aufgabenanalysevorrichtung 1 das Modell der Aufgabenklassifizierung.
(4) Die Aufgabenanalysevorrichtung 1A der vorliegenden Offenbarung ist eine Aufgabenanalysevorrichtung zum Analysieren einer Aufgabe eines Arbeiters, wobei die Aufgabenanalysevorrichtung umfasst: eine Objekt-Detektionseinheit 106, die so konfiguriert ist, dass sie ein Objekt aus Videodaten, die die Aufgabe des Arbeiters enthalten, erkennt; eine Gemeinsame-Positions-Schätzeinheit 101, die so konfiguriert ist, dass sie gemeinsame Positions-Information, die den Arbeiter betreffen, aus den Videodaten schätzt; eine Objektbereichs-Eintritts-/Austritts-Erfassungseinheit 107, die so konfiguriert ist, dass sie auf der Grundlage der gemeinsamen Positions-Information, die von der Gemeinsame-Positions-Schätzeinheit 101 geschätzt wurden, erkennt, ob ein Bildbereich, der eine gemeinsame Position des Arbeiters enthält, in einen Bildbereich, der das von der Objekt-Detektionseinheit 106 erkannte Objekt enthält, eingetreten ist und ihn dann verlassen hat; eine Bild-Extraktionseinheit 103a, die so konfiguriert ist, dass sie aus den Videodaten auf der Grundlage des Ergebnisses der Erfassung durch die Objektbereichs-Eintritts-/Austritts-Erfassungseinheit 107 einen Bereich auf den Videodaten extrahiert, der zu dem von der Objekt-Detektionseinheit 106 erfassten Objekt gehört; eine Objekt-Erkennungseinheit 104a, die so konfiguriert ist, dass sie eine Objekterkennung für den Bereich in den Videodaten durchführt, der von der Bild-Extraktionseinheit 103a extrahiert wurde; eine Objektdetektions-Aktivierungseinheit 108, die so konfiguriert ist, dass sie die Objekt-Detektionseinheit 106 veranlasst, das Objekt in einem Fall periodisch zu erkennen, in dem die Objekt-Erkennungseinheit 104a nicht in der Lage ist, das Objekt innerhalb des Bereichs in den Videodaten zu erkennen; und eine Aufgaben-Schätzeinheit 1051a, die so konfiguriert ist, dass sie die Aufgabe auf der Grundlage einer Änderung einer Koordinate des Objekts identifiziert, das in den Videodaten von der Objekt-Detektionseinheit 106 erkannt wurde.
Die Aufgabenanalysevorrichtung 1A kann ähnliche Effekte erzielen wie die in Abschnitt (1) beschriebenen Funktionen.
ERKLÄRUNG DER REFERENZZAHLEN

1, 1A: Aufgabenanalysevorrichtung
10, 10a: Steuereinheit
101: Gemeinsame-Positions-Schätzeinheit
102: Bewegungs-Schätzeinheit
103, 103a: Bild-Extraktionseinheit
104, 104a: Objekt-Erkennungseinheit
105: Aufgaben-Identifikationseinheit
1051, 1051a: Aufgaben-Schätzeinheit
106: Objekt-Detektionseinheit
107: Objektbereichs-Eintritts-/Austritts-Erfassungseinheit
108: Objektdetektions-Aktivierungseinheit
20, 20a: Speichereinheit
201: Videodaten-Speichereinheit
202: Bewegungs-Speichereinheit
203: Objekt-Positions-Beziehungs-Speichereinheit
204: Aufgaben-Speichereinheit
205: Objektkoordinaten-Speichereinheit
2: Kamera
100: Aufgabenanalysesystem

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 202167981 [0004]
WO 2017222070 [0004]

Zitierte Nicht-Patentliteratur

SUGANO, Kosuke, OKU, Kenta, KAWAGOE, Kyoji, „Motion Detection from Multidimensional Time-Series Data, and Classification Verfahren,“ DEIM Forum 2016 G4-5 [0037]
UEZONO, Shohei, ONO, Satoshi, „Feature extraction using LSTM Autoencoder for multimodal sequential data,“ Materials for Conference of the Japanese Society for Artificial Intelligence, SIG-KBS-B802-01, 2018 [0037]

Claims

Eine Aufgabenanalysevorrichtung zum Analysieren einer Aufgabe eines Arbeiters, wobei die Aufgabenanalysevorrichtung folgendes umfasst: eine Gemeinsame-Positions-Schätzeinheit, die so konfiguriert ist, dass sie gemeinsame Positions-Information, die den Arbeiter betreffen, aus Videodaten, die die Aufgabe des Arbeiters enthalten, schätzt; eine Bewegungs-Schätzeinheit, die so konfiguriert ist, dass sie Bewegungs-Information über den Arbeiter auf der Grundlage der von der Gemeinsame-Positions-Schätzeinheit geschätzten gemeinsamen Positions-Information schätzt; eine Bild-Extraktionseinheit, die so konfiguriert ist, dass sie aus den Videodaten auf der Grundlage der von der Bewegungs-Schätzeinheit geschätzten Bewegungs-Information einen Bereich in den Videodaten extrahiert, der zu einem Objekt gehört, das mit der Bewegungs-Information verbunden ist; eine Objekt-Erkennungseinheit, die so konfiguriert ist, dass sie das Objekt innerhalb des Bereichs auf den Videodaten erkennt, der von der Bild-Extraktionseinheit extrahiert wurden; und eine Aufgaben-Identifikationseinheit, die so konfiguriert ist, dass sie die Aufgabe des Arbeiters auf der Grundlage des von der Objekt-Erkennungseinheit erkannten Objekts identifiziert.
Die Aufgabenanalysevorrichtung nach Anspruch 1, wobei in einem Fall, in dem die Bewegungs-Schätzeinheit Bewegungs-Information bezüglich des Arbeiters schätzt, die eine Vielzahl von Bewegungen auf der Basis der gemeinsamen Positions-Information umfassen, extrahiert die Bild-Extraktionseinheit eine Vielzahl von Bereichen auf den Videodaten für jede der Vielzahl der geschätzten Bewegungen, die Objekt-Erkennungseinheit das Objekt für jeden der Vielzahl von Bereichen auf den Videodaten erkennt, und die Aufgaben-Identifikationseinheit enthält eine Aufgaben-Schätzeinheit, die so konfiguriert ist, dass sie eine Aufgabe mit der höchsten Wahrscheinlichkeit auf der Grundlage einer Wahrscheinlichkeit jeder der Vielzahl von Bewegungen, die von der Bewegungs-Schätzeinheit geschätzt werden, und einer Wahrscheinlichkeit des Objekts, das für jeden der Vielzahl von Bereichen auf den Videodaten von der Objekt-Erkennungseinheit erkannt wird, schätzt.
Die Aufgabenanalysevorrichtung nach Anspruch 1 oder 2, die ferner umfasst: eine Bewegungs-Speichereinheit, die so konfiguriert ist, dass sie eine Regelbasis oder ein trainiertes Modell zur Ausgabe von Bewegungs-Information über den Arbeiter speichert, die den von der Gemeinsame-Positions-Schätzeinheit geschätzten gemeinsamen Positions-Information entsprechen; eine Objekt-Positions-Beziehungs-Speichereinheit, die so konfiguriert ist, dass sie im Voraus auf der Grundlage der Bewegungs-Information, die den Arbeiter betreffen, einen Bereich auf den Videodaten speichert, der das Objekt einschließt, das mit der Bewegungs-Information verbunden ist; und eine Aufgaben-Speichereinheit, die so konfiguriert ist, dass sie eine Aufgabentabelle speichert, in der das von der Objekt-Erkennungseinheit erkannte Objekt im Voraus der Aufgabe des Arbeiters zugeordnet wird.
Eine Aufgabenanalysevorrichtung zum Analysieren einer Aufgabe eines Arbeiters, wobei die Aufgabenanalysevorrichtung folgendes umfasst: eine Objekt-Detektionseinheit, die so konfiguriert ist, dass sie ein Objekt aus Videodaten, die die Aufgabe des Arbeiters enthalten, detektiert; eine Gemeinsame-Positions-Schätzeinheit, die so konfiguriert ist, dass sie aus den Videodaten gemeinsame Positions-Information über den Arbeiter schätzt; eine Objektbereichs-Eintritts-/Austritts-Erfassungseinheit, die so konfiguriert ist, dass sie auf der Grundlage der von der Gemeinsame-Positions-Schätzeinheit geschätzten gemeinsamen Positions-Information abtastet, ob ein Bildbereich, der eine gemeinsame Position des Arbeiters enthält, in einen Bildbereich, der das von der Objekt-Detektionseinheit detektierte Objekt enthält, eingetreten ist und diesen dann verlassen hat; eine Bild-Extraktionseinheit, die so konfiguriert ist, dass sie aus den Videodaten auf der Grundlage eines Ergebnisses der Erfassung durch die Objektbereichs-Eintritts-/Austritts-Erfassungseinheit einen Bereich auf den Videodaten extrahiert, der zu dem von der Objekt-Detektionseinheit detektierte Objekt gehört; eine Objekt-Erkennungseinheit, die so konfiguriert ist, dass sie eine Objekterkennung für den Bereich auf den Videodaten, die von der Bild-Extraktionseinheit extrahiert wurden, durchführt; eine Objektdetektions-Aktivierungseinheit, die so konfiguriert ist, dass sie die Objekt-Detektionseinheit veranlasst, das Objekt in einem Fall periodisch zu detektieren, in dem die Objekt-Erkennungseinheit nicht in der Lage ist, das Objekt innerhalb des Bereichs auf den Videodaten zu erkennen; und eine Aufgaben-Schätzeinheit, die so konfiguriert ist, dass sie die Aufgabe auf der Grundlage einer Änderung einer Koordinate des in den Videodaten von der Objekt-Detektionseinheit detektieren Objekts identifiziert.