DE69300041T2

DE69300041T2 - Mehrfachprozessor-Datenverarbeitungssystem.

Info

Publication number: DE69300041T2
Application number: DE69300041T
Authority: DE
Inventors: Gerald Ouvradou; Andre Thepaut
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 1992-01-14
Filing date: 1993-01-08
Publication date: 1995-06-01
Anticipated expiration: 2013-01-09
Also published as: FR2686175B1; DE69300041D1; FR2686175A1; EP0552074A1; JPH0612393A; EP0552074B1; US5465375A

Description

Die vorliegende Erfindung betrifft allgemein Multiprozessor-Datenverarbeitungssysteme.
Der ständig steigende Bedarf an Rechnerleistung von Datenverarbeitungssystemen für Anwendungen wie beispielsweise Bildverarbeitung oder wissenschaftliche Berechnungen hat die Entwickler von Rechnern veranlaßt, neue Prozessorarchitekturen einzuführen: die Parallelarchitekturen. Drei Grundprinzipien werden für die Einführung dieses Parallelismus in die neuen Architekturen verwendet. Man unterscheidet:
- segmentierte Architekturen (oder Pipelinearchitekturen): Diese Architekturen zerlegen eine Aufgabe in mehrere Schritte und führen die Schritte unabhängig voneinander mit verschiedenen Prozessoren aus. Jedesmal, wenn nach der Ausführung eines Schrittes ein Zwischenergebnis erreicht wird, wird dieses zum nächsten Prozessor übertragen usw. Wenn ein Schritt abgeschlossen ist, wird der für die Ausführung verantwortliche Prozessor freigesetzt und steht somit für die Verarbeitung von neuen Daten zur Verfügung. Ausgehend von der Annahme, daß die Zeiträume für die jeweilige Ausführung der verschiedenen Schritte deutlich gleich sind, ist der Zeitraum für den Erhalt der Endergebnisse somit gleich der Dauer eines Schrittes und nicht der Dauer für die Ausführung der Ausgabe;
- Architekturen mit Matrix-Prozessoren oder SIMD- Architekturen (Single Instruction, Multiple Data Stream). Bei Architekturen dieser Art wird die größere Rechenleistung durch gleichzeitige Ausführung des gleichen Befehls durch eine größere Zahl von identischen Verarbeitungseinheiten erreicht. Die Architektur dieser Art eignet sich besonders für die vektorielle Verarbeitung; und
- Multiprozessor-Architekturen oder MIMD-Architekturen (Multiple Instruction, Multiple Data Stream). Bei Architekturen dieser Art führen mehrere Prozessoren unabhängig voneinander jeweils Befehlsfolgen aus. Die Kammunikati6n zwischen den Prozessoren erfolgt durch einen gemeinsamen Speicher und/oder ein Verbindungsnetz zwischen den Prozessoren.
Die europäische Patentanmeldung EP-A-433142 enthält die Beschreibung einer Architektur eines Multiprozessor- Datenverarbeitungssystems, in dem der Bus von verschiedenen Prozessorstufen genutzt wird und auf jeder Stufe durch ein programmierbares Netz von logischen Zellen (LCA: Logic Cell Arrays) verbunden ist, die als mehrere Ein-/Ausgangsmittel und ein Verzweigungsmittel konfiguriert sind. Der Hauptvorteil einer solchen Architektur liegt darin, jedem Prozessor die Aufgaben der Abfrage und Verwaltung des Bus zu entziehen, da diese im Netz der mit dem Prozessor verbundenen logischen Zellen ausgeführt werden. Diese Architektur ist allerdings im Hinblick auf den Multiprozessoransatz für Anwendungen mit wissenschaftlichen Berechnungen nicht optimal. Jeder Prozessor hat hier fast alle zu erledigenden Aufgaben (außer der Verwaltung des Bus) auszuführen. Zahlreiche Multiprozessoranwendungen erfordern beträchtliche Rechenmittel und ein einziger, nicht nach Stufen spezialisierter Prozessor, schränkt die Leistung ein.
Ziel der vorliegenden Erfindung ist, von den vorgenannten Nachteilen Abhilfe zu schaffen, indem ein Datenverarbeitungssystem bereitgestellt wird, das den Multiprozessoransatz für jede Stufe der vorgenannter Architektur optimiert.
Zu diesem Zweck ein erfindungsgemäßes Multiprozessor- Datenverarbeitungssystem, bestehend aus einer Vielzahl von miteinander durch intermodulare Busse in Kaskade verbundenen Modulen,
wobei jedes Modul besteht aus einer Datenverarbeitungseinheit, einem ersten Speicher, einem Logikmittel, das in erste, zweite und dritte Ein- /Ausgangsschnittstellenmittel zum vorübergehenden Speichern von Daten und ein zentrales Mittel konfigurierbar ist, um die genannten gespeicherten Daten zu verarbeiten und die genannten gespeicherten verarbeiteten Daten zu einem der genannten Ein- /Ausgangsschnittstellenmittel zu verzweigen, und aus einem ersten Modulbus, der die genannte Verarbeitungseinheit, den genannten ersten Speicher und das genannte erste Schnittstellenmittel verbindet,
zwei intermodulare Busse, welche die genannten zweiten und dritten Schnittstellenmittel jeweils mit einem dritten Schnittstellenmittel und einem zweiten Schnittstellenmittel in zwei neben dem genannten Modul befindliche Module verbinden,
wobei die genannten Verarbeitungseinheiten über ein Kommunikationsnetz in Kaskade miteinander verbunden sind,
dadurch gekennzeichnet, daß jedes der genannten Module u.a. eine spezialisierte Verarbeitungseinheit und einen zweiten Speicher enthält, und daß ein viertes Ein- /Ausgangsschnittstellenmittel in dem genannten konfigurierbaren Logikmittel konfiguriert ist,
wobei die spezialisierte Verarbeitungseinheit, der zweite Speicher und das vierte Ein- /Ausgangsschnittstellenmittel durch einen zweiten Modulbus miteinander verbunden sind.
Nach einer spezifischen Ausführungsform der Erfindung, indem davon ausgegangen wird, daß einerseits das Mittel zur Verarbeitung und Verzweigung ein für allemal für eine gegebenen Anwendung konfiguriert ist, daß andererseits mehrere aufeinander folgenden Multiprozessorverarbeitungen von den Verarbeitungseinheiten an ein und demselben Datenstrom ausgeführt werden können, müssen die bereits nach einer ersten Verarbeitung verarbeiteten Daten für eine folgende Verarbeitung wieder auf die verschiedenen Module verteilt werden. In diesem Fall sind die zweiten und dritten Ein- /Ausgangschnittstellenmittel jeweils in den Logikmitteln der letzten und ersten in Kaskade verbundenen Module mit Hilfe eines rückwirkenden Bus verbunden.
Die Erfindung betrifft ebenfalls ein Verfahren zur Verarbeitung von Eingangsdaten, in dem das erfindungsgemäße Datenverarbeitungsverfahren angewandt wird. Das Verfahren besteht aus:
- einem Initialisierungsschritt, der u.a. darin besteht, jeweils Koeffizienteneinheiten mit Hilfe des genannten Kommunikationsnetzes in die zweiten Speicher der Module und die genannten Eingangsdaten in den ersten Speicher des ersten Moduls zu laden, und
- mindestens einer Einheit eines ersten und zweiten Schrittes;
- wobei der erste Schritt darin besteht, in Abhängigkeit von den genannten Koeffizienteneinheiten partielle Verarbeitungen an den genannten Eingangsdaten in den genannten spezialisierten Verarbeitungseinheiten aus zuführen, um jeweils partielle Daten zu erzeugen,
- wobei der zweite Schritt darin besteht, die partiellen Daten mit Hilfe der genannten intermodularen Busse und dem genannten rückwirkenden Bus zu einem beliebigen Logikmittel oder einem beliebigen ersten und zweiten Speicher zurückzuführen.
Andere Merkmale und Vorteile der vorliegenden Erfindung werden bei der Lektüre der folgenden Beschreibung von zwei bevorzugten Ausführungsformen unter Bezugnahme auf die entsprechenden beigefügten Zeichnungen deutlich, in welchen:
- Abbildung 1 ein Modelldiagramm eines Netzes von formalen Neuronen ist;
- Abbildung 2 ein Diagramm einer Schichtenarchitektur der Modelldarstellung aus Abbildung 1 ist;
- Abbildung 3 ein Blockdiagramm eines Multiprozessor- Datenverarbeitungssystems mit wieder konfigurierbarem aktiven Bus gemäß der früheren Technik ist;
- Abbildung 4A und 4B aus zwei Blockdiagrammen von Ausführungen des erfindungsgemäßen spezialisierten Datenverarbeitungssystem mit Coprozessor besteht;
- Abbildung 5 ein Diagramm mit typischen Bildern ist, die für die aufeinander folgenden Verarbeitungen in den Schichten eines formalen Neuronennetzes erhalten werden;
- Abbildung 6 ein Diagramm mit den Verbindungen ist, die mit den synaptischen Koeffizienten zwischen zwei nebeneinanderliegenden Schichten eines Netzes von formalen Neuronen assoziiert sind;
- Abbildung 7 ein Diagramm für das Laden der synaptischen Koeffizienten in bezug auf zwei nebeneinanderliegende Schichten im Datenverarbeitungssystem gemäß einer bevorzugten Ausführungsform der Erfindung ist; und
- Abbildung 8 ein Diagramm der Algorithmen in bezug auf die Verarbeitung der Verbindungen zwischen zwei aufeinander folgenden Schichten ist, die in dem System nach Abbildung 7 ausgeführt wird.
Das erfindungsgemäße Multiprozessor- Datenverarbeitungssystem wird nachfolgend für eine bestimmte Ausführung beschrieben, die Netze von formalen Neuronen betrifft.
Ein sehr allgemeines Modell der Darstellung eines mehrschichtigen Neuronennetzes ist in Abbildung 1 dargestellt: eine bestimmte Anzahl von Grundeinheiten ... Ni-1, Ni, Ni+1 ... , die Neuronen genannt und durch ihren jeweiligen Ausgang ... Si-1, Si, Si+1 ... definiert werden ... bilden die Knoten des Netzes. Jedes Neuron Ni wird durch ein "Potential" Vi erregt, das durch die folgende Gleichung definiert wird:
Vi = Σ Wji.Sj, wobei Sj eine Ausgangsebene eines Neurons Nj darstellt, das mit dem Neuron Ni "verbunden" ist, und Wji einen synaptischen Koeffizienten der Verbindung zwischen den Neuronen Nj und Ni bezeichnet. Mit diesem Potential Vi ist die entsprechende Ausgangsebene Si des Neurons Ni verbunden, die durch die Gleichung:
Si (t + Δt) = f(Vi(t)) definiert wird,
in der f eine nichtlineare Funktion ist.
In der Praxis und in Analogie zur Struktur des menschlichen Gehirns sind diese Neuronen nicht anarchisch angeordnet, sondern in Schichten in Form von "Säulen" zusammengefaßt, wobei die Verbindungen zwischen zwei nebeneinanderliegenden Schichten einer bestimmten Funktion zugewiesen sind, wie in Abbildung 2 dargestellt. Diese Abbildung stellt N Schichten von übereinandergelagerten Schichten mit zwei Außenschichten SCHICHT 1 und SCHICHT N und (N-2) verdeckten Schichten SCHICHT 2 bis SCHICHT (N-1) dar, die zwischen den beiden Außenschichten enthalten sind. Die Außenschicht 1 wird gewöhnlich mit "Retina" oder "Eingangsschicht" bezeichnet und empfängt einen Eingangsvektor, während die Außenschicht SCHICHT N, oder Ausgangsschicht, einen entsprechenden Ausgangsvektor erzeugt. In dieser Darstellung ist jedes Neuron einer Datenschicht n mit jedem Neuron der unmittelbar darüberliegenden Schicht (n+1) verbunden, wobei das Ganze n zwischen 1 und N-1 liegt. Wie in bezug auf Abbildung 1 dargestellt, wird jeder dieser Verbindungen jeweils ein synaptischer Koeffizient W zugeordnet.
In der Praxis und als Beispiel kann das Neuronennetz zur Erkennung von Ziffern wie 0, 1, 2, ..., 8, 9 verwendet werden. In diesem Fall ist der Eingangsvektor ein Block von numerischen Pixeln eines digitalisierten Bildes einer von einer Person geschriebenen Ziffer. Jeder Verbindung zwischen zwei Neuronen wird jeweils ein synaptischer Koeffizient W zugeordnet, der in einer Lernphase des Netzes abgeleitet wird. Diese synaptischen Koeffizienten entsprechen Werten von Matrix- Multiplikationskoeffizienten, die Bildpixeln zugeordnet werden. Die Ausgangsschicht SCHICHT N erzeugt einen Ausgangsvektor, der eine binäre Information ist und die "erkannte" Ziffer kennzeichnet. Neuronenausgänge einer Schicht erzeugen ein Bild von Merkmalen, das die "gefilterten" Merkmale des Bildes von Merkmalen darstellt, das an den Neuronenausgängen der unmittelbar darunterliegenden Schicht erzeugt wird. Jeder der Anwendungsschritte dieses Modells auf das erfindungsgemäße Multiprozessor-Datenverarbeitungssystem wird später detaillierter beschrieben.
Ein Multiprozessor-Datenverarbeitungssystem nach der früheren Technik, wie in der europäischen Patentanmeldung EP-A-433142 beschrieben, ist in Abbildung 3 dargestellt. Das Multiprozessorsystem besteht aus einer Vielzahl von Modulen in Kaskade, von welchen zwei nebeneinanderliegende Module Ni und Mi+1 in Abbildung 3 dargestellt sind. Jedes der Module Mi und Mi+1 enthält einen Prozessor PRi, PRi+1, der mit Transputer bezeichnet wird, einen RAM-Speicher MEi, MEi+1 und ein programmierbares Netz von logischen Zellen LCAi, LCAi+1. Die jeweiligen Prozessoren der verschiedenen Module sind mit Hilfe eines Kommunikationsnetzes RC miteinander verbunden. Dieses Kommunikationsnetz RC dient insbesondere zur Übertragung von Steuer-/Befehlsinformationen zwischen Prozessoren. Für ein gegebenes Modul Mi sind der Prozessor PRi, der Speicher MEi und das Netz der logischen Zellen LCAi mit Hilfe eines betreffenden Modulbus BMi miteinander verbunden. Dieser Modulbus BMi besteht aus spezialisierten Grundbussen, d.h. einem Datenbus, einem Adreßbus und einem Steuerbus und verbindet den Prozessor, den Speicher und ein erstes Ein- /Ausgangsschnittstellenmittel im Netz der logischen Zellen LCAi. Die programmierbaren Netze der logischen Zellen (LCA) sind dem Fachmann bekannt und bestehen aus logischen, kombinierbaren und konfigurierbaren sequentiellen Schaltungen. Diese Konfiguration wird vom Prozessor des Moduls vorgenommen.
Nach der vorgenannten Patentanmeldung ist das programmierbare Netz der logische Zellen in drei Ein- /Ausgangsschnittstellenmittel und ein zentrales Datenverarbeitungs- und Verzweigungsmittel konfiguriert. Die Ein-/Ausgangsschnittstellenmittel verfügen insbesondere über temporäre Datenspeicherfunktionen. Das zentrale Mittel führt die Funktionen der Verzweigung der Daten zwischen den Schnittstellenmitteln und der elementaren Verarbeitung (Änderung von Datenformaten, Kodieren, vorberechnete Funktionen) zum Beispiel im Pipelinemodus aus. Das erste Schnittstellenmittel des Zellennetzes bildet die Schnittstelle zwischen dem Modulbus BMi und dem zentralen Mitteln, während die zweiten und dritten Schnittstellenmittel das zentrale Mittel jeweils mit zwei intermodularen Bussen BIMi und BIMi-1 verbinden. Die genannten Busse BIMi und BIMi-1 werden dann jeweils mit einem dritten Schnittstellenmittel im logischen Netz eines unmittelbar darüberliegenden Moduls Mi+1 und einem zweiten Schnittstellenmittel im logischen Netz eines unmittelbar darunterliegenden Moduls Mi-1 verbunden.
Die Einführung eines programmierbaren Netzes von logischen Zellen in jedes Modul einer solchen Multiprozessorarchitektur ist besonders in der Hinsicht interessant, als es einen Feinkornparallelismus zwischen den Modulen einleitet, indem es dem logischen Netz LCAi die Aufgaben der unteren Ebene (Zugang zum intermodularen Bus, elementare Funktionen) zuweist.
Abbildung 4A zeigt die erste Ausführungsform eines erfindungsgemäßen Datenverarbeitungssystems zur bevorzugten Ausführung eines Netzes von formalen Neuronen beispielsweise im Rahmen der Erkennung von Ziffern von 0 bis 9. Das System besteht aus I Modulen 2&sub1; bis 2I in einer Kaskadenarchitektur.
Jedes Modul 2i, wobei i ein wechselndes Ganzes zwischen 1 und I ist, besteht aus einer Datenverarbeitungseinheit in Form eines Prozessors 20i, einem ersten Speicher vom Typ RAM 21i, einem programmierbaren Netz von logischen Zellen 22i, einem zweiten Speicher 23i, und einem Signalverarbeitungsprozessor, der einen Coprozessor oder spezialisierte dedizierte Verarbeitungseinheit 24i bildet. Im Modul 2i sind der Prozessor 20i, der Speicher 21i und ein Ein-/Ausgangsschnittstellenmittel 221i des programmierbaren Netzes der logischen Zellen 22i mit Hilfe eines gemeinsamen Modulbus 25i verbunden. Typischerweise besteht dieser gemeinsame Bus aus drei elementaren Bussen, d.h. Adreßbus, Datenbus und Steuerbus
Im Vergleich zu der obigen Beschreibung unter Bezugnahme auf die frühere Technik nach Abbildung 3 ist das programmierbare Netz der logischen Zellen 22i in vier Ein-/Ausgangsschnittstellenmittel 221i, 222i, 223i und 224i und ein zentrales Datenverarbeitungs- und Verzweigungsmittel 220i programmiert. Nach dieser Ausführungsform bilden die Ein-/Ausgangsschnittstellenmittel 221i bis 224i in erster Linie Mittel zum temporären Speichern oder Puffermittel. Das zentrale Mittel 220i ist konfiguriert, um die Daten von und zu den Ein- /Ausgangsschnittstellenmitteln 221i bis 224i zu verzweigen und die elementaren Verarbeitungen an den von den Ein-/Ausgangsschnittstellenmitteln empfangenen Daten vorzunehmen.
Das erste Ein-/Ausgangsschnittstellenmittel 221i ist mit dem Modulbus 25i verbunden. Dieses Ein- /Ausgangsschnittstellenmittel 221i wird z.B. verwendet zum:
- vorübergehenden Speichern der vom Prozessor 20i übertragenen Daten, um letzteren für andere Aufgaben freizusetzen; und
- direkten Speicherzugriff (DMA) auf den mit Hilfe des Netzes von logischen Zellen 22i mit dem Prozessor 20i verbundenen Speicher 21i.
Die zweiten und dritten Ein- /Ausgangsschnittstellenmittel 222i und 223i des Netzes der logischen Zellen 22i des i-ten Moduls 2i sind jeweils mit einem dritten Ein- /Ausgangsschnittstellenmittel 223i+1 eines unmittelbar darüberliegenden Moduls 2i+1 und einem zweiten Ein- /Ausgangsschnittstellenmittel 222i-1 eines unmittelbar darunterliegenden Moduls 2i-1 verbunden. Diese Verbindungen werden jeweils mit Hilfe von zwei intermodularen Bussen BIi(i+1) und BI(i-1)i hergestellt. Somit werden die I Netze von programmierbaren logischen Zellen mit Hilfe der intermodularen Busse BI&sub1;&sub2;, ..., BI(I-I)I in Kaskade angeordnet. Nach der bevorzugten Ausführungsform sind das dritte Ein-/Ausgangsschnittstellenmittel 223&sub1; des ersten Moduls 2&sub1; und das zweite Schnittstellenmittel 222I des I-ten Moduls 2I durch einen rückwirkenden Bus BR verbunden.
Die intermodularen Busse BI&sub1;&sub2; bis BI(I-1)I in Serie mit dem rückwirkenden Bus BR bilden somit einen Ring. Die zweiten und dritten Schnittstellenmittel 222i und 223i können zum Beispiel bei einer Übertragung von Daten zwischen Prozessoren 20i von nicht nebeneinanderliegenden Modulen verwendet werden und verleihen den Netzen der logischen Zellen 22i die Funktion von schnellen Übertragungsknoten.
In jedem Modul 2i sind der Signalverarbeitungsprozessor 24i, der zweite Speicher 23i und das vierte Ein- /Ausgangsschnittstellenmittel 224i durch einen gemeinsamen Bus 26i miteinander verbunden.
Unter Bezugnahme auf die Abbildungen 5, 6, 7 und 8 wird jetzt die Funktion des erfindungsgemäßen Datenverarbeitungssystems für die bevorzugte Ausführungsform beschrieben, die Netze mit formalen Neuronen betrifft.
Abbildung 5 zeigt die Ergebnisse, die typischerweise im Rahmen von Netzen mit formalen Neuronen bei der Erkennung von handschriftlichen Ziffern zwischen 0 und 9 erhalten werden. Eine derartige Anwendung kann zum Beispiel die Erkennung von Postleitzahlen zur "automatisierten" Verteilung der Post sein. Im Diagramm in Abbildung 5 ist die Datenachse relativ zu den Nummern der Neuronenschichten in einer Architektur, wie unter Bezugnahme auf die Abbildung 2 dargestellt ist. In diesem Diagramm wird angenommen, daß die Anzahl der Neuronenschichten gleich 5 ist. Der Eingangsvektor ist ein Block mit (28 x 28) Pixeln, die eine beliebige Ziffer, in diesem Fall 0, darstellen, die von einer Person geschrieben wurde und digitalisiert ist. Das Netz besteht aus 4634 Neuronen.
Jedes Neuron der mit Retina bezeichneten Eingangsschicht (SCHICHT 1) empfängt jeweils ein Pixel des Eingangsvektors. Die erste verdeckte Schicht SCHICHT 2 ist in 4 Unterschichten mit (24 x 24) Neuronen unterteilt. Jedes Neuron jeder Unterschicht empfängt (5 x 5) benachbarte Pixel des Eingangsblocks nach Multiplikation mit einer Linienmatrix der betreffenden synaptischen Koeffizienten. Es wird daran erinnert, daß diese synaptischen Koeffizienten zur Verarbeitung in Matrix- Multiplikationskoeffizienten verwendet werden. Vier Blocks mit (24 x 24) Pixeln werden somit von den jeweiligen Ausgängen der vier Unterschichten der Neuronen von SCHICHT 1 geliefert.
Die zwischen den Neuronenausgängen der Schicht SCHICHT 1 und den vier Unterschichten der zweiten Schicht SCHICHT 2 zugeordneten synaptischen Koeffizienten sind relativ zu den spezifischen Verarbeitungen, die am Eingangsbild mit (28 x 28) Pixeln ausgeführt werden. Die jeweiligen synaptischen Koeffizienten zwischen den vier Unterschichten der SCHICHT 2 und den vier Unterschichten der SCHICHT 3 sind relativ zu den Verarbeitungen der Mittelwertbildung und des Subsampling durch zwei. Die jeweiligen Neuronenausgänge der vier Unterschichten der SCHICHT 3 erzeugen somit vier Bildblocks mit (12 x 12) Pixeln.
Die Ausgänge von SCHICHT 3 und SCHICHT 4 werden nicht im einzelnen beschrieben. Es ist jedoch festzustellen, daß die Aufgabe jeder Schicht aus der Extraktion von Grundmerkmalen des digitalisierten Blocks von (28 x 28) Pixeln einer handschriftlichen Ziffer besteht. Wie in Abbildung 5 gezeigt, erzeugt eine Ausgangsschicht von 10 Neuronen zehn Schwarz-Weiß-Pixel, wobei der Rang des von einem der zehn Neuronen erzeugten einzigen weißen Pixels repräsentativ für die nach den unterschiedlichen "digitalen Filterschritten", die jeweils von den Neuronenschichten ausgeführt werden, "erkannte" Eingangsziffer ist.
Unter Bezugnahme auf Abbildung 6, 7 und 8 wird jetzt im einzelnen der Aufbau eines Netzes von formalen Neuronen im erfindungsgemäßen Multiprozessor- Datenverarbeitungssystem beschrieben, wie in Abbildung 4A dargestellt. Nach dieser bevorzugten Ausführungsform besteht das Neuronennetz aus drei Schichten mit jeweils 256, 40 und 10 Neuronen. Die Neuronen der ersten, mit Eingangsschicht bezeichneten Schicht und der zweiten Schicht stellen jeweils Verbindungen (jeweils einem synaptischen Koeffizienten zugeordnet) mit jedem der Neuronen mit der unmittelbar darüberliegenden Schicht her, d.h. der zweiten und dritten Schicht, die mit Ausgangsschicht bezeichnet wird. Der Eingangsvektor ist ein Block von (16 x 16) = 256 Pixeln eines digitali- sierten Bildes einer handschriftlichen Zahl zwischen O und 9.
Wie in Abbildung 6 gezeigt, werden alle den jeweiligen synaptischen Koeffizienten zwischen zwei nebeneinanderliegenden Schichten J und J' von Neuronen zugewiesenen Verbindungen ganz durch eine einzige rechteckige Matrix der Größe (J x J') definiert. Jeder Koeffizient Wjj' der rechteckigen Matrix, j, der zwischen 1 und J liegt, und j' zwischen 1 und J', entspricht dem Wert eines synaptischen Koeffizienten der Verbindung zwischen einem Neuron mit dem Rang j und einem Neuron mit dem Rang j' von jeweils zwei nebeneinanderliegenden Schichten.
In Übereinstimmung mit der bevorzugten Ausführungsform werden somit jeweils zwei Matrixen mit (J x J') = (256 x 40) und (J x J') = (40 x 10) synaptischen Koeffizienten zwischen der ersten und der zweiten Schicht und zwischen der zweiten und dritten Schicht verwendet, d.h. insgesamt 10640 Koeffizienten oder Verbindungen.
Zur Information: diese synaptischen Koeffizienten für besondere Ausführungen (Erkennen von Ziffern, ...) werden in einer Lernphase mit einem Algorithmus zur Rückleitung eines Gradienten erhalten. Zusammenfassend nimmt dieser Algorithmus Berechnungen zur Erkennung für synaptische Koeffizienten vor, die zu Anfang vorgegeben werden. Die Ergebnisse dieser Berechnungen werden mit den erwarteten Ergebnissen der Erkennung verglichen. Die Koeffizienten werden unter Berücksichtigung dieses Vergleichs modifiziert. Nach mehreren Iterationen konvergieren die synaptischen Koeffizienten zu optimalen Erkennungswerten. Diese Lernphase ist im allgemeinen sehr zeitaufwendig.
Nach der ersten bevorzugten Ausführungsform umfaßt das erfindungsgemäße Datenverarbeitungssystem (Abbildung 4A) I = 10 Module 2&sub1; bis 2&sub1;&sub0;. In einem ersten Schritt, wie in Abbildung 7 schematisch dargestellt, wird jedes Modul 2i, wobei i zwischen 1 und 10 liegt, der Verarbeitung in bezug auf alle Verbindungen zwischen der Eingangsschicht und jeweils einer der zehn Vierfachen der Neuronen der zweiten Schicht (4 x 10 = 40) zugeordnet. Die Matrixberechnungen:
Vp = Σ Wkp ek ,
wobei k zwischen 1 und J = (16 x 16) variiert und p zwischen 1 und J' = 40 variiert,
werden vom gleichen Signalverarbeitungsprozessor für vier festgelegte Werte des Index p und somit relativ zu vier Neuronen eines jeweiligen Vierfachen ausgeführt.
Ein Vorteil der Erfindung ergibt sich daraus, daß diese Matrixmultiplikationen von den Signalverarbeitungsprozessoren 24&sub1; bis 24I=10 ausgeführt werden.
Im Anschluß an diese erste Verarbeitung (Verbindungen zwischen der ersten und zweiten Schicht) wird jeder Signalverarbeitungsprozessor 24&sub1; bis 24&sub1;&sub0; der Verarbeitung der Matrixmultiplikationen relativ zu den Verbindungen zwischen den Neuronen der zweiten Schicht und jeweils einem Neuron der dritten Schicht, die mit Ausgangsschicht (1 x 10 = 10) bezeichnet wird, zugeordnet.
Die Verwendung eines Signalverarbeitungsprozessors oder spezialisierten Coprozessors 24i setzt den Prozessor 20i frei, der weitere Aufgaben übernehmen kann.
Unter Bezugnahme auf Abbildung 8 und 4A werden jetzt Anordnung und Funktion des erfindungsgemäßen Multiprozessor-Datenverarbeitungssystems in einem Netz von formalen Neuronen beschrieben.
Vor dem Betrieb des Systems im Erkennungsmodus in einem Netz von formalen Neuronen wird das System mit Hilfe eines Pilotrechners 1, der mit dem ersten Prozessor 20&sub1; verbunden ist, initialisiert. Diese Initialisierung wird vom Rechner 1 mit Hilfe des Interprozessorkommunikationsnetzes RC festgestellt. Die Initialisierung umfaßt:
in bezug auf jeden Prozessor 20&sub1;bis 20&sub1;&sub0;:
- das Laden eines Betriebsprogrammes in den jeweiligen Speicher 21&sub1; bis 21&sub1;&sub0; mit Hilfe des Bus 25&sub1; bis 25&sub1;&sub0;,
- die Konfiguration des verbundenen Netzes der logischen Zellen 22&sub1; bis 22&sub1;&sub0;;
- das Laden der Programme (Matrixmultiplikation ...) in bezug auf den Betrieb des Signalverarbeitungsprozessors 24&sub1; bis 24&sub1;&sub0; in den verbundenen Speicher 23&sub1; bis 23&sub1;&sub0; über das Netz 22&sub1; bis 22&sub1;&sub0;, und
- das Laden einer Einheit von synaptischen Koeffizienten, wie bereits beschrieben, in bezug auf den Signalverarbeitungspropzessor 24&sub1; bis 24&sub1;&sub0; in den verbundenen Speicher 23&sub1; bis 23&sub1;&sub0;; sowie das Laden des ersten Formvektors, der die Eingangsdaten e&sub1; bis eJ bildet, die durch Verarbeitung (Block von 16 x 16 Pixeln) erkannt werden sollen, in den Speicher 21&sub1; des Prozessors 20&sub1; des ersten Moduls 2&sub1;.
Im Falle einer Folgeverarbeitung von mehreren zu erkennenden Eingangsdatenvektoren werden letztere gemäß ihrer Verfügbarkeit im Speicher 21&sub1; gespeichert, der mit dem Prozessor des ersten Moduls 2&sub1; verbunden ist. Jeder Eingangsvektor wird zum Beispiel vom Pilotrechner 1 nach einer vorherigen Verarbeitung (lineare Verarbeitung der Standardisierung der von einem Camescope gelieferten ersten Blocks auf das Format 16 x 16) an den ersten Blocks über das Kommunikationsnetz RC zur Verfügung gestellt.
Das Diagramm der Algorithmen in bezug auf eine erste Verarbeitung von Verbindungen zwischen der ersten und zweiten Neuronenschicht in Abbildung 8 gestattet, die Funktion des erfindungsgemäßen Multiprozessor- Datenverarbeitungssystem in einem Netz von formalen Neuronen zu verstehen. Jedes "Bild" der Abbildung 8 ist relativ zu einem Algorithmus, der von einem oder mehreren der Prozessoren 20&sub1;, Signalverarbeitungsprozessoren 24&sub1; oder Netzen von logischen Zellen 22&sub1; des Systems ausgeführt wird.
Wir haben bereits gesehen, daß der Vektor der Eingangsdaten zuerst in den Speicher 21&sub1; geladen wird. Der Prozessor 20&sub1; liest diesen Vektor in den Speicher 21&sub1; ein und schreibt ihn in das erste Ein- /Ausgangsschnittstellenmittel 221&sub1; des programmierbaren Netzes der logischen Zellen 22&sub1; des ersten Moduls 2&sub1;. Das zentrale Mittel 220&sub1; des Netzes 22&sub1; verzweigt nun diesen Vektor zum zweiten Schnittstellenmittel 222&sub1; und dieses zweite Schnittstellenmittel 222&sub1; überträgt ihn zurück zum dritten Schnittstellenmittel 223&sub2; des logischen Netzes 22&sub2; des zweiten Moduls 22 usw. Der Vektor wird somit im Ring BI&sub1;&sub2; bis BI(I-1)I nacheinander zu den unmittelbar darüberliegenden Modulen übertragen. Jedes zentrale Mittel der Netze verzweigt und entnimmt über das vierte Schnittstellenmittel 224i alle (16 x 16) Pixel des Vektors zum Speicher 23i, der mit seinem Signalverarbeitungsprozessor 24i verbunden ist. Der von jedem Modul 2i bei der oben beschriebenen Konfiguration verwendete Eingangsdatenvektor wird dann in dem jeweiligen mit dem Signalverarbeitungsprozessor 24i verbundenen Speicher 23i abgespeichert.
Der erste Schritt (Schritt 1) des Algorithmus relativ zu jedem der Signalverarbeitungsprozessoren 24i, wobei i zwischen 1 und I liegt, besteht aus der Berechnung des Potentials V1 relativ zu den dem Modul 2i zugeordneten Neuronen, dann im Schreiben des auf diese Weise berechneten Potentials in das Ein- /Ausgangsschnittstellenmittel 224i des logischen Netzes 22i des gleichen Moduls 2i Jedes 220i der zentralen Mittel der logischen Netze, die zu diesem Zweck konfiguriert wurden, sendet nach und nach die Ergebnisse der Berechnung des Potentials V&sub1; bis Vi zum folgenden Netz 22i+1' bis alle Ergebnisse V&sub1; bis VI vom dritten Ein- /Ausgangsschnittstellenmittel 223&sub1; des logischen Netzes des 'ersten Moduls 2&sub1; über den rückwirkenden Bus BR (Schritt 2) empfangen wurden.
Dann schreibt das Ein-/Ausgangsschnittstellenmittel 223&sub1; des ersten Moduls 2&sub1; die empfangenen Ergebnisse der Berechnung des Potentials in den Speicher 23&sub1; und macht dem Signalverarbeitungsprozessor 24&sub1; Meldung (Schritt 3). Der Prozessor 24&sub1; berechnet den Wert der sigmoiden Funktion (nichtlineare Funktion f auf der Basis der hyperbolischen Tangentenfunktion, definiert ausgehend von dem am Anfang in der Beschreibung dargestellten Modell) für jeden "Pixel" oder Potential Vi des Neurons, das von den Prozessoren 24i (Schritt 5) erzeugt wurde, um die Ausgangsebenen aller Neuronen der zweiten Schicht für diese erste Verarbeitung zu erhalten. Parallel dazu und weil jeder Signalverarbeitungsprozessor 24i die berechneten Potentiale der vier Neuronen der zweiten Schicht, die er bei der ersten Verarbeitung simuliert, in den zugehörigen Speicher 23i schreibt, lesen die Prozessoren 20&sub1; bis 20I dann die Potentiale der jeweils in den Speichern 23&sub1; bis 23I gespeicherten Neuronen, wenn alle Potentiale berechnet wurden (Schritt 2').
Nach der Ausführungsform sind zwei Verarbeitungen in bezug auf die erste und zweite Schicht und zweite und dritte Schicht vorgesehen. Somit werden die Ausgänge der Neuronen der zweiten Schicht der gewählten Konfiguration, die im Speicher 23&sub1; gespeichert sind, von den Signalverarbeitungsprozessoren 24&sub1; bis 24I für neue Potentialberechnungen nach Übertragung in den Ring der Ausgänge der Neuronen, wie bei der ersten Verarbeitung berechnet, wieder verarbeitet.
Nach der zweiten, in Abbildung 4B dargestellten Ausführungsform, wird vorgeschlagen, hinter den ersten Modulen 2&sub1; bis 2I ein zusätzliches Modul 2&sub0; vorzusehen. Dieses Modul besteht aus einem Prozessor 20&sub0;, einem Speicher 21&sub0; und einem programmierbaren Netz von logischen Zellen 22&sub0;. Dieses Modul ist vorgesehen, um die zu verarbeitenden Bilder der Pixel direkt in ein Ein- /Ausgangsschnittstellenmittel 223&sub0; des programmierbaren Netzes 22&sub0; einzugeben. Diese Eingabe gestattet die Erhöhung des zu verarbeitenden Bildflusses, weil dann die Bilder nicht den Pilotrechner 1 durchlaufen und darüber hinaus nicht die Benutzung des Kommunikationsnetzes RC erfordern. Das Datenerfassungssystem (Bilder), wie ein Camescope oder Scanner (nicht abgebildet), wird dann direkt mit dem dritten Ein- /Ausgangsschnittstellenmittel 223&sub0; des programmierbaren Netzes 22&sub0; des Zusatzmoduls 2&sub0; über einen Bus BI verbunden. Der Speicher 21&sub0;, der Prozessor 20&sub0; und ein erstes Ein-/Ausgangsschnittstellenmittel 221&sub0; des programmierbaren Netzes 22&sub0; im Zusatzmodul 2&sub0; sind auf die gleiche Weise mit Hilfe eines Bus 25&sub0; miteinander verbunden, wie die gegenseitigen Verbindungen in den anderen Modulen 22&sub1; bis 22I. Die über einen Bus in das dritte Ein/Ausgangsschnittstellenmittel 223&sub0; des programmierbaren Netzes 22&sub0; eingegebenen Bilder können im Verarbeitungs- und Verzweigungsmittel 220&sub0; des Netzes 22&sub0; durch Programmierung des letzteren einer ersten Vorverarbeitung (Formatierung 16 x 16) unterzogen werden. Das zweite Schnittstellenmittel 222&sub0; ist über einen zusätzlichen intermodularen Bus BI&sub0;&sub1; mit dem dritten Schnittstellenmittel 223&sub1; des ersten 2&sub1; der Module in Kaskade 2&sub1; bis 2I verbunden.
Aus identischen Gründen wie bei der ersten Ausführungsform kann auch ein rückwirkender Bus BR vorgesehen werden. Dieser verbindet das zweite Ein- /Ausgangsschnittstellenmittel 222I des programmierbaren Netzes 22I des letzten Moduls 2I mit dem vierten Ein/Ausgangsschnittstellenmittel 224&sub0; des Netzes 22&sub0; des Zusatzmoduls.
Zur Information: die Erkennung einer handschriftlichen, in (16 x 16) Pixel digitalisierten Ziffer durch das erfindungsgemäße Datenverarbeitungssystem mit der Simulation von 10640 Neuronen benötigt 175 us. Bei herkömmlichen Systemen sind gewöhnlich Zeitdauern in der Größenordnung von etwa zehn Millisekunden erforderlich.

Claims

1 - Multiprozessor-Datenverarbeitungssystem, bestehend aus einer Vielzahl von miteinander durch intermodulare Busse (BI&sub1;&sub2; bis BI(I-1)I) in Kaskade verbundenen Modulen (2&sub1; bis 2I),

wobei jedes Modul (2i) besteht aus einer Datenverarbeitungseinheit (20i) einem ersten Speicher (21i), einem Logikmittel (22i), das in erste, zweite und dritte Ein/Ausgangsschnittstellenmittel (221i, 222i, 223i) zum vorübergehenden Speichern von Daten und ein zentrales Mittel (220i) konfigurierbar ist, um die genannten gespeicherten Daten zu verarbeiten und die genannten gespeicherten verarbeiteten Daten zu einem der genannten Ein-/Ausgangsschnittstellenmittel zu verzweigen, und aus einem ersten Modulbus (25i), der die genannte Verarbeitungseinheit (20i), den genannten ersten Speicher (21i) und das genannte erste Schnittstellenmittel (221i) verbindet,

zwei intermodulare Busse (BI(i-1)i, BIi(+1)), welche die genannten zweiten und dritten Schnittstellenmittel jeweils mit einem dritten Schnittstellenmittel und einem zweiten Schnittstellenmittel in zwei neben dem genannten Modul befindliche Module verbinden,

wobei die genannten Verarbeitungseinheiten (20&sub1; - 20I) über ein Kommunikationsnetz (RC) in Kaskade miteinander verbunden sind,

dadurch gekennzeichnet, daß jedes der genannten Module (2i) u.a. eine spezialisierte Verarbeitungseinheit (24i) und einen zweiten Speicher (23i) enthält, und daß ein viertes Ein-/Ausgangsschnittstellenmittel (224i) in dem genannten konfigurierbaren Logikmittel (2i) konfiguriert ist,

wobei die spezialisierte Verarbeitungseinheit (24i) der zweite Speicher (23i) und das vierte Ein/Ausgangsschnittstellenmittel (224i) durch einen zweiten Modulbus (26i) miteinander verbunden sind.

2 - Datenverarbeitungssystem nach Anspruch 1, dadurch gekennzeichnet, daß die zweiten und dritten Ein/Ausgangschnittstellenmittel (222I, 223i) jeweils in den Logikmitteln der letzten und ersten in Kaskade verbundenen Module (2I, 2&sub1;) mit Hilfe eines rückwirkenden Bus (BR) verbunden sind.

3 - Datenverarbeitungssystem nach Anspruch 1, dadurch gekennzeichnet, daß das genannte System ferner ein Mittel zur Datenerfassung und ein zusätzliches Modul (2&sub0;) enthält, das hinter den ersten Modulen 2&sub1; bis 2I in Kaskade angeordnet ist und mit Hilfe eines zusätzlichen intermodularen Bus (BI&sub0;&sub1;) mit dem ersten (2&sub1;) der beiden genannten Module verbunden ist,

wobei das genannte zusätzliche Modul eine erste Datenverarbeitungseinheit (20&sub0;), einen ersten Speicher (21&sub0;) und ein in erste, zweite, dritte und vierte Ein- /Ausgangsschnittstellenmittel (221o, 222&sub0;, 223&sub0;, 224&sub0;), die auf die gleiche Weise miteinander verbunden sind wie die in jedem der Module in Kaskade, konfigurierbares Logikmittel (22&sub0;) enthält,

wobei das genannte Mittel zur Erfassung mit Hilfe eines Bus (BI) mit dem dritten Ein- /Ausgangsschnittstellenmittel des genannten Logikmittels (22&sub0;) des genannten zusätzlichen Moduls (2&sub0;) verbunden ist,

wobei der zusätzliche intermodulare Bus (B&sub0;&sub1;) das zweite und dritte Eini/Ausgangsschnittstellenmittel (222&sub0;, 222&sub1;) jeweils in den Logikmitteln des zusätzlichen Moduls und des ersten Moduls (2&sub1;) miteinander verbindet.

4 - Datenverarbeitungssystem nach Anspruch 1, dadurch gekennzeichnet, daß das zweite und vierte Ein- /Ausgangsschnittstellenmittel (222I, 224&sub0;) jeweils in den Logikmitteln des letzten Moduls (2I) und des zusätzlichen Moduls (2&sub0;) mit Hilfe eines rückwirkenden Bus (BR) verbunden sind.

5 - Verfahren zur Verarbeitung von Eingangsdaten (e&sub1; bis eJ), in dem das erfindungsgemäße Datenverarbeitungssystem nach den Ansprüchen 2 oder 4 angewandt wird, bestehend aus:

- einem Initialisierungsschritt, der u.a. darin besteht, jeweils Koeffizienteneinheiten mit Hilfe des genannten Kommunikationsnetzes (RC) in die zweiten Speicher (23i) der Module (2i) und die genannten Eingangsdaten in den ersten Speicher (21i) des ersten Moduls (2i) zu laden, und

- mindestens einer Einheit eines ersten und zweiten Schrittes;

- wobei der erste Schritt darin besteht, partielle Verarbeitungen an den genannten Eingangsdaten (e&sub1;, ..., eJ) in den genannten spezialisierten Verarbeitungseinheiten (24i) in Abhängigkeit von den genannten Koeffizienteneinheiten auszuführen, um jeweils partielle Daten zu erzeugen,

- wobei der zweite Schritt darin besteht, die partiellen Daten mit Hilfe der genannten intermodularen Busse (BI(i-1)i) und dem genannten rückwirkenden Bus (BR) zu einem beliebigen Logikmittel (22i) oder einem beliebigen (21i, 23i) ersten und zweiten Speicher zurückzuführen.