DE69816876T2

DE69816876T2 - Verbesserungen in bezug auf mustererkennung

Info

Publication number: DE69816876T2
Application number: DE69816876T
Authority: DE
Inventors: Francis Meirion Malvern LEWIS; Anne Rebecca Leigh Sinton WILSON; Sinclair Brian Malvern LOWANS; Charles Rupert Peacehaven YOUNG
Original assignee: Qinetiq Ltd
Current assignee: Qinetiq Ltd
Priority date: 1998-09-24
Filing date: 1998-09-24
Publication date: 2004-04-22
Anticipated expiration: 2018-09-25
Also published as: DE69816876D1; WO2000017810A1; DE69915499T2; EP1116169B1; CA2345261A1; ATE246380T1; MXPA01003035A; WO2000017809A1; EP1116170A1; CA2345262A1; JP2002525762A; ATE261602T1; DE69915499D1; EP1116170B1; NO20011519L; US7067784B1; AU9176398A; CN1322328A; JP4197844B2; JP2002525685A

Description

Diese Erfindung bezieht sich auf Verbesserungen an Verfahren und Vorrichtungen für die Mustererkennung und insbesondere auf ein verbessertes Verfahren und eine verbesserte Vorrichtung, um das Vorhandensein und/oder den Ort eines Referenzobjektes in einer Szene zu erfassen. Sie bezieht sich außerdem auf andere Erfindungen.
Die Mustererkennung besitzt stark unterschiedliche Anwendungen, z. B. in der Industrie. Ein Beispiel einer Situation, in der ein Mustererkennungsschema erforderlich ist, ist die Erfassung des Typs und des Ortes eines Autos auf einer belebten Straße. Andere Beispiele sind industrielle Fertigungslinien, Sicherheitssysteme, die Fahrzeugidentifizierung, die Fingerabdruck- und Gesichtserkennung usw. Ein derartiger Prozeß ist für einen Menschen trivial, wenn er mit einer graphischen Darstellung, die die Autotypen identifiziert, und einer klaren Sicht auf die Straße versehen ist. Die Automatisierung des Prozesses, bei der eine Kamera, um die Szene zu betrachten, und eine Computer-Mustererkennung bereitgestellt werden, ist jedoch ein komplexer Prozeß, insbesondere wenn die Beleuchtung veränderlich und/oder das Fahrzeug teilweise verdeckt ist.
Ein Verfahren zum Erfassen des Vorhandenseins eines vorgegebenen bekannten Objektes innerhalb eines Bildes einer Szene besteht darin, nach der Korrelation zwischen dem Objekt und der Szenerie zu suchen. Dies kann ausgeführt werden, indem das Objekt und das Bild direkt verwendet werden, in vielen Fällen ist es aber effizienter, die betroffenen Daten im Bereich der Fourier-Transformation zu verarbeiten, d. h. durch Verarbeitung der Ortsfrequenzkomponenten des Objekts und des Bildes. Mathematisch hängen diese Prozesse über das "Faltungstheorem" zusammen [Literaturhinweis 1: J. W. Goodman]. Im obigen Beispiel kann das Referenzobjekt (die Referenz wird immer als ein Objekt und die Szenerie immer als ein Bild bezeichnet) das eines Autos, das gegen einen klaren Hintergrund gestellt ist, oder die Form einer Flasche in einer Befüllungslinie usw. sein. In diesen Beispielen könnte die Szenerie eine Verkehrsschlange bzw. die Befüllungslinie umfassen.
Um in alltäglichen Anwendungen nützlich zu sein, ist es oft notwendig, mehr als ein Referenzobjekt zu besitzen, z. B. verschiedene Modelle des Autos. Außerdem kann es notwendig sein, mehrere Winkelorientierungen und Maßstäbe der Referenzobjekte zu verwenden, um alle möglichen Aspekte abzudecken.
Im Stand der Technik ist vorgeschlagen worden, den Korrelationsprozeß zwischen dem Objekt und dem Bild unter Verwendung eines optischen Systems auszuführen. Dies wurde zuerst in den 1960er Jahren von A. Vander Lugt vorgeschlagen [Literaturhinweis 2]. Dieses System nutzt die inhärenten Fourier-Transformationseigenschaften einer Linse aus.
Ein typisches optisches Vander-Lugt-Schema ist in 1 der beigefügten Zeichnung gezeigt. Das System umfaßt eine optische Kamera 1, die ein Bild der Eingangsszene aufnimmt und einen räumlichen Lichtmodulator (SLM) 2 ansteuert, um eine dem aufgenommenen Bild entsprechende Maske anzuzeigen. In diesem Patent wird das Wort "Maske" verwendet, um das auf einem SLM angezeigte Muster zu beschreiben, wobei das Muster im allgemeinen Amplituden- und/oder Phaseninformationen enthalten kann. Ein kohärenter Laserstrahl wird durch einen geeigneten Strahldehner geleitet, um einen breiten Strahl kohärenten Lichts zu erzeugen, der sich durch den SLM 2 ausbreitet. Die ursprüngliche Vander-Lugt-Arbeit verwendete anstatt SLMs, die zu dieser Zeit nicht verfügbar waren, feste Hologramme.
Das Ausgangssignal des SLM 2, der sich in der vorderen Brennebene der Linse befindet, breitet sich durch die Linse aus und bildet eine Fourier-Transformation der Maske in der hinteren Brennebene der Linse, wo es auf einen zweiten SLM 4 auftrifft.
Um die Szenerie mit einem Referenzobjekt zu korrelieren, umfaßt die durch den SLM 4 gebildete Maske das Phasenkonjugierte der Fourier-Transformation des Referenzobjektes. Das durch den zweiten SLM, den SLM 4, sich ausbreitende Licht wird durch eine zweite Linse 5 in der hinteren Brennebene der Linse 5 fourier-transformiert, wo es durch die Ausgangskamera 6 aufgenommen wird. [Mathematisch würde die Linse 5 im Idealfall eine inverse Fourier-Transformation ausführen, dieser Unterschied ist aber nicht von praktischer Bedeutung.] Falls eine starke Korrelation zwischen dem Bild und der Referenz vorhanden ist, wird im Muster in der hinteren Brennebene der Linse 5 eine scharfe helle Spitze erzeugt. Die Position dieser Spitze ist durch die Position des Referenzobjektes im Szenenbild bestimmt. Eine große Spitze am Ursprung in der Brennebene wird außerdem normalerweise beobachtet, zurückzuführen auf die DC-Ortsfrequenzkomponente der kombinierten Fourier-Transformationsmuster der Szene und der Referenz (d. h. der Gesamtintensität) und/oder den Austritt unmodulierten Lichts durch die Zwischenbildpunkt-Lücken der SLMs.
Es gibt einige inhärente Nachteile des obenbeschriebenen klassischen Vander-Lugt-Schemas. Die optische Ausrichtung der zwei Lin sen und der SLMs ist im hohen Grade kritisch, wobei deshalb das System eine hohe Schwingungsempfindlichkeit besitzt. Außerdem ist die optische Weglänge recht lang, dies führt zu einem sperrigen und teuren System. Außerdem ist das System, wie es beschrieben ist, zwischen ähnlichen Objekten nicht so unterscheidend, wie es in praktischen Systemen oft erwünscht ist, es würde z. B. nicht leicht zwischen "E" und "F" unterscheiden.
Seit der ursprünglichen Veröffentlichung von Vander Lugt sind viele Variationen an seinem Schema entworfen und veröffentlicht worden [Goodman, S. 237 folgende]. Es ist eine Aufgabe der vorliegenden Erfindung, einige der Probleme zu verbessern, die in den Mustererkennungsschemata des Standes der Technik vorhanden sind.
Es wird angenommen, daß eine Erörterung einiger Begriffe, die in dieser Anmeldung verwendet werden, hilfreich sein wird. Der Anhang 1, der Teil dieser Anmeldung ist und gerade vor den Ansprüchen vorgelegt wird, erörtert einige Begriffe.
Die Erfindung ist im beigefügten Vorrichtungsanspruch 1 und im beigefügten Verfahrensanspruch 27 definiert.
Es kann an dieser Stufe hilfreich sein, sowohl auf 15 (als auch auf die Liste der Begriffe des Anhangs 1) Bezug zu nehmen, die eine bestimmte Nomenklatur darlegt, die übernommen wird. "Bilder" sind reale Gegenstände, Szenenbilder und Referenzbilder (die im System nicht vorgesehen sein können). "Muster" sind die Fourier-Transformation (oder fourier-ähnliche Transformation), z. B. Szenenmuster und Referenzmuster. Die Multiplikation des Bildmusters und eines Referenzmusters wird als das "kombinierte Muster" bezeichnet.
Das Referenzmuster kann eine synthetische Diskriminantenfunktion sein.
Die optischen Ausgabemittel können einen räumlichen Lichtmodulator, der beschaffen ist, um abhängig vom kombinierten Muster eine Maske zu erzeugen, und eine Lichtquelle, die beschaffen ist, um einen Lichtstrahl zu erzeugen, der durch den räumlichen Lichtmodulator moduliert wird, umfassen.
Die Vorrichtung kann außerdem zweite Optik-Elektronik-Umsetzungsmittel enthalten, die beschaffen sind, um abhängig vom räumlichen Muster des Lichtes, das durch den räumlichen Lichtmodulator moduliert worden ist, ein Ausgangssignal zu erzeugen. Dieses modulierte Licht kann anschließend durch eine Linse fourier-transformiert werden.
Die Vorrichtung entsprechend der ersten bevorzugten Version umfaßt deshalb digitale Eingabemittel, die eine erste Stufe der Fourier-Transformation ausführen, die in einem Vander-Lugt-Schema optisch ausgeführt würde, und optische Ausgabemittel, die die zweite Fourier-Transformation ausführen.
Vorzugsweise sind die Referenzmuster entweder elektronisch, optisch, magnetisch oder anders digital gespeichert. Sie können z. B. sowohl verschiedene "Form"-Muster und verschiedene Größen besitzen als auch verschiedene Daten repräsentieren.
Das aufgenommene Szenenmuster kann mit einer Menge von Referenzmustern (oder einer Teilmenge einer Menge von Referenzmu stern) kombiniert werden. Eine "Menge" kann alle gespeicherten Referenzmuster enthalten, die sich auf einen speziellen Artikel (oder Gegenstand) beziehen, der zu erkennen ist.
Das Szenenbild kann ein visuelles Bild umfassen oder es kann eine zweidimensionale Anordnung von Daten umfassen, die von einem weiteren Eingang erhalten worden sind, z. B. einem Röntgenteleskop, oder von irgendeinem Sensor oder irgendeiner Sensoranordnung erfaßte Signale (z. B. im nicht sichtbaren elektromagnetischen Spektrum oder sogar Schall oder Ultraschall). Eine "Szene" kann außerdem andere allgemeinere Daten umfassen (die nicht notwendigerweise ein Bild darstellen), wobei sie nicht zweidimensional sein kann, wobei sie in bestimmten Fällen z. B. eine Datenkette sein kann, wie z. B. diejenige, die durch einen Computer oder ein Kommunikationssystem erzeugt worden ist, oder eine aus einem Speicher. In jedem Fall wird sich die Bedeutung des Begriffs "Bild" dementsprechend ändern.
Die Vorrichtung kann beschaffen sein, um das Vorhandensein eines Referenzobjektes in einer Szene in Echtzeit zu erfassen. Dies kann z. B. das Erzeugen einer Ausgabe innerhalb eines Bruchteils einer Sekunde vom Aufnehmen eines Szenenbildes bedeuten, so daß eine Bedienungsperson keine Verzögerung bemerkt.
Sie kann 5000 Korrelationen pro Sekunde oder mehr ausführen. Sie kann 10.000 Korrelationen pro Sekunde oder 20.000, 40.000, 60.000, 80.000, 100.000 oder mehr ausführen, wobei sie eine Anzahl von Korrelationen pro Sekunde in einem Bereich der Geschwindigkeiten ausführen kann, der durch das obere und/oder untere Ende irgendeiner der obengenannten Zahlen skizziert ist.
Die Hybridkombination der zweidimensionalen digitalen und optischen Verarbeitung schafft einige Vorteile gegenüber dem Vander-Lugt-Korrelator. Das Vander-Lugt-Schema ist selbstverständlich ein statisches Schema, wohingegen in Betracht gezogen wird, daß das neue System typischerweise dynamisch sein wird – sowohl die Szenen- als auch die Referenzdaten, die verwendet werden, ändern sich zeitlich sehr schnell. Das neue System beseitigt die Schwierigkeiten der optischen Ausrichtung und der Stabilität, die im klassischen Vander-Lugt-Schema vorhanden sind, weil die Multiplikation der Daten der Fourier-Transformation statt optisch elektrisch ausgeführt wird. Dies ist deshalb im Prinzip eine perfekte "Ausrichtung" zwischen der Eingabe von der Szene und der Referenzeingabe. Zweitens erlaubt es einen größeren Grad der Flexibilität bei der Verarbeitung der Bild- und Referenzmuster, z. B. kann die Kombination mit beliebiger Bitgenauigkeit ausgeführt werden. Drittens wird die Anzahl der optischen Komponenten beträchtlich verringert. Dies kann die Länge/Größe der Vorrichtung verringern, wobei es die Robustheit verbessert. Außerdem können die Bild- und Referenzmuster erzeugt werden, damit sie hinsichtlich Amplitude und/oder Phase perfekt übereinstimmen.
Die Multiplikation der zwei Fourier-Übertragungsmuster wird unter Verwendung einer Gatter-Logik, die schnell genug ist, um eine gute Leistung zu bieten, ausgeführt, wobei dann eine optische Fourier-Transformation (inverse Fourier-Transformation) verwendet wird, wobei diese Operation digital nicht schnell genug ausgeführt werden kann, um Hunderte von Referenzmustern mit jedem Eingangsvollbild (Szenenmuster) mit einer Rate auszuführen, so daß ein Anwender es als Echtzeit ohne signifikante Verzögerung wahrnimmt.
Das aufgenommene Szenenbild, die aufgenommenen Szenenmuster und die Referenzmuster können auf angenommen 8-Bit-Genauigkeit digitalisiert werden. Es kann eine mehr oder weniger genaue Digitalisierung verwendet werden, einschließlich binärer Daten lediglich der Phase, wie später in diesem Patent beschrieben ist.
Die Aufnahmemittel (die Eingangskamera) können eine ladungsgekoppelte Vorrichtung (CCD), wie z. B. eine CCD-Kamera oder eine CMOS-Vorrichtung, umfassen. Diese kann eine Anordnung aus 100.000 oder mehr Bildpunkten umfassen, z. B. 512*512 oder mehr Bildpunkte, wobei sie ein aufgenommenes Bild (Vollbild) erzeugt, das eine Menge digitaler Daten umfaßt, die (wenigstens vorübergehend) gespeichert werden können. Es können Mittel vorgesehen sein, um das ganze Vollbild oder einen ausgewählten Teil des Vollbildes (d. h. weniger als das ganze Vollbild und möglicherweise signifikant weniger als das ganze Vollbild, z. B. 1/2, 1/4, 1/10 oder weniger) auszuwählen, um ein aufgenommenes Szenenbild zu bilden. Es würde typischerweise bevorzugt sein, 128*128, 256*256, 512*512 zu verarbeiten, um die FFT zu unterstützen. Die Kamera erzeugt vorzugsweise Bilder mit einer Rate von 25–60 Hz, d. h. mit den Videoaufnahmeraten des Industriestandards. Dies erzeugt Kostenersparnisse, da die Vorrichtungen, die mit diesen Frequenzen arbeiten, allgemein verfügbar sind und einen relativ niedrigen Preis aufweisen, zurückzuführen auf die Einsparungen der Größenordnung. Es können jedoch andere Frequenzen verwendet werden.
Das Korrelationsmuster kann durch eine Detektoranordnung aufgenommen werden, die mehrere diskrete Detektorzeilen umfaßt, wobei jede Detektorzeile ihr zugeordnete Mittel aufweist, um das erfaßte einfallende Lichtmuster auszulesen. Die Detektoranordnung kann Teil einer Ausgangskamera sein. Dieses Auslesen aus einer einzelnen Detektorzeile ist schneller als ein herkömmliches kameragestützte Ausleseschema, das ein Abtasten über eine Anzahl von Zeilen ausführen muß. Die Anordnung kann beschaffen sein, so daß jede Zeile in der Anordnung in abwechselnden Richtungen ausgelesen wird.
Die ersten und zweiten Verarbeitungsmittel können eine oder mehrere digitale Signalverarbeitungskarten umfassen, wobei sie in einem einzelnen Verarbeitungsmittel, wie z. B. einer digitalen Schaltung oder einem Computer-Programm, kombiniert sein können. Sie können in einer Anordnung einen Transputer und einen Personal-Computer umfassen, der die Software enthält, die erforderlich ist, um die Fourier-Transformation des aufgenommenen Szenenbildes ausführen.
Der räumliche Lichtmodulator (SLM) kann eine Hochgeschwindigkeits-Lichtmodulatoranordnung umfassen, wie z. B. den in der früheren Anmeldung beschriebenen schnellen räumlichen Bitebenen-Lichtmodulator (FBPSLM) (siehe Literaturhinweise 7 und 8]. Er kann eine Anordnung aus ferroelektrischem Flüssigkristallmaterial umfassen, das auf einem Substrat vorgesehen sein kann.
Das durch den modulierten Strahl erzeugte Ausgangsmuster enthält wenigstens eine Intensitätsspitze für jedes Referenzobjekt, dessen (x, y)-Position(en) im zweidimensionalen Ausgangsmuster durch die Position des Objekts im aufgenommenen Szenenbild bestimmt ist (sind).
Der SLM kann eine Anordnung von Bildpunkten oder Elementen umfassen, die zwischen wenigstens einem ersten Zustand, in dem das Licht durch das Element geht, während es in einer ersten Art moduliert wird, und einem zweiten Zustand, in dem das durch das Element gehende Licht in einer zweiten, anderen Art moduliert wird, umgeschaltet werden kann. In jedem Fall kann das Licht entweder verzögert oder amplitudenmoduliert oder beides werden. Vorzugsweise umfaßt jedes Element einen Flüssigkristall-Bildpunkt. Der SLM kann im Betrieb entweder lichtdurchlässig oder reflektierend sein. Es kann im wesentlichen eine 180°-Phasendifferenz zwischen dem Licht, das mit einem Bildpunkt im ersten Zustand in Wechselwirkung getreten ist, im Vergleich zu dem Licht, das mit einem Bildpunkt im zweiten Zustand in Wechselwirkung tritt, geben.
Der SLM kann eine Transmissionsvorrichtung sein, wie z. B. ein Flüssigkristall, oder eine Reflexionsvorrichtung, wie z. B. eine mikrobearbeitete mechanische Vorrichtung (z. B. elektronisch gesteuerte bewegliche Elemente, die das Licht reflektieren). Für einige Reflexionsvorrichtungen "geht" das Licht nicht durch sie "hindurch" (wobei es das für andere tut – z. B. einen LC-Plus-Spiegel), wobei vielleicht ein allgemeinerer Begriff sein würde, daß das Licht in mehreren Arten mit der Vorrichtung abhängig vom Zustand der Bereiche der Vorrichtung in Wechselwirkung tritt.
Die optische Ausgabestufe kann ferner eine optische Linse umfassen, die zwischen dem SLM und den zweiten Optik-Elektronik-Umsetzungsmitteln (z. B. der Ausgangskamera) oder vor dem SLM aber nach der Lichtquelle vorgesehen sein kann.
In einer Verfeinerung kann die Linse mit dem SLM selbst einteilig sein. Dies könnte durch das digitale Verarbeiten des kombinierten Musters erreicht werden; das verwendet wird, um den SLM anzusteuern, um eine Zonenplattenlinse zu simulieren, der das kombinierte Muster überlagert ist. Folglich kann keine physikalische optische Linse aus Glas oder einem transparenten Medium getrennt vom SLM vorhanden sein. Alternativ kann eine Kombination aus echten Linsen und Zonenplattenlinsen verwendet werden. Unter diesen Umständen kann der optimale Ort (können die optimalen Orte) der Ausgangskamera durch die Brennweiten der Zonenplattenlinsen und/oder echten Linsen bestimmt sein.
Es können zweite Optik-Elektronik-Umsetzungsmittel vorgesehen sein, die eine ladungsgekoppelte Vorrichtung ähnlich zur Aufnahmekamera umfassen können, wo sie vorgesehen ist. Alternativ können sie einen Photodetektor oder eine Detektoranordnung umfassen. Diese kann sich in der Brennebene einer echten optische Linse befinden. Sie können beschaffen sein, um ein Ausgangssignal zu erzeugen, das einen zweidimensionalen Datensatz oder ein kombiniertes Muster umfaßt, das das durch das modulierte Licht in der hinteren Brennebene der Linse gebildete Muster repräsentiert. Dieses Muster hängt von der Korrelation zwischen dem Referenzobjekt und dem Eingangsszenenbild ab.
Ein optisches räumliches Filter kann in der Nähe des SLM vorgesehen sein, z. B. zwischen dem SLM und dem zweiten Optik-Digital-Umsetzer. Dieses kann ein räumliches Filter umfassen, das beschaffen ist, um das Ortfrequenzspektrum zu modifizieren, z. B. durch Verringerung der hohen, niedrigen oder irgendeiner Kombination der Ortsfrequenzen. Es kann ein Gaußdifferenzfilter (DOG-Filter) verwendet werden, das die sehr hohen und sehr niedrigen Ortsfrequenzkomponenten verringert. Es können andere Filter verwendet werden, z. B. Gaußsche Filter. Die letzteren können außerdem durch das natürliche Intensitätsprofil vieler Laser-Ausgangsstrahlen eingeführt werden.
Es kann ein "intelligenter" räumlicher Lichtmodulator vorgesehen sein. In einer geeigneten Anordnung kann dies nach dem "Kombinieren", z. B. zwischen dem "kombinierenden" SLM und den zweiten Optik-Elektronik-Umsetzungsmitteln, an der Vorderseite der Kamera oder in einer Zwischenbildebene sein. Der intelligente SLM kann einen Modulator umfassen, der eine Amplitudenschwelle besitzt, unter der das Licht gedämpft wird, dies erlaubt, daß nur die starken Korrelationsspitzen durchgelassen werden. Der intelligente SLM kann eine Mehrfach-Quantentopf-Vorrichtung (MQW-Vorrichtung) umfassen. In der Technik sind Vorrichtungen mit einer Sättigungsintensität von 1–3 kW/cm² bekannt [siehe Literaturhinweis 4], die mit einer 100-mW-Laser-Lichtquelle und einem SLM mit einer Bildpunktgröße in der Größenordnung von 10 Mikrometer verwendet werden könnten. Der intelligente SLM ist in dem Sinn intelligent, daß er auf die Intensität des auf ihn einfallenden Lichtes reagiert. Er besitzt zweckmäßigerweise einen elektronisch gesteuerten Transmissions- oder Reflexionsgang.
Alternativ kann der intelligente SLM nur Licht unter einer Schwellenintensität durchlassen. Die Verwendung eines intelligenten SLM als ein Begrenzer kann als eine Eingangskamera oder möglicherweise an einer Ausgangskamera eines Korrelators nützlich sein.
Der intelligente SLM kann nicht nur zwei Zustände seiner Bildpunkte oder Bereiche ("farblos" und "dunkel") besitzen, sondern er kann statt dessen eine Grauskalen-Anzahl von Einstellungen besitzen, um ab hängig von der Intensität des einfallenden Lichtes eine steuerbare variable Reaktion zu geben.
Die Vorrichtung kann Mittel zum periodischen Aufnehmen eines Szenenbildes, Mittel zum Kombinieren jedes aufgenommenen Szenenbildes der Reihe nach mit mehr als einem Referenzmuster, um eine Menge kombinierter Muster zu erzeugen, und Mittel zum Einstellen des SLM in Reaktion auf jedes kombinierte Muster zwischen der Aufnahme jeder Bildszene enthalten. Dies erfordert, daß das aus dem Szenenbild abgeleitete Szenenmuster mit mehreren Referenzmustern mit einer höheren Rate als der Rate des Aufnehmens der Szenenbilder (oft einer viel höheren Rate, vielleicht hundert- oder tausendmal höher) verglichen werden muß. Dies ist möglich, weil für jedes aufgenommenen Szenenbild nur eine digitale Transformation notwendig ist, um ein Szenenmuster zu erzeugen, wobei die Referenzmuster Transformationen umfassen, die im voraus berechnet worden sind, wobei die typischerweise vielen optischen Transformationen fast unmittelbar auftreten.
LC-SLMs können, nachdem sie eingestellt worden sind, um eines oder mehrere kombinierte Muster anzuzeigen, mit einem Inversen des kombinierten Musters oder der kombinierten Muster angesteuert werden, um einen im wesentlichen konstanten Vorspannungspegel zu sichern, der im Mittel an den Modulator angelegt wird, um die Verschlechterung des Flüssigkristallmaterials zu verhindern (wobei der langfristige mittlere Vorspannungspegel vorzugsweise im wesentlichen null Volt beträgt).
Die Vorrichtung kann einen Personal-Computer oder eine dedizierte Signalverarbeitungskarte enthalten, der bzw. die beschaffen ist, um die Fourier-Transformationsschritte auszuführen. Ein dedizierter Speicher zum Speichern des einen oder der mehreren Referenzmuster kann vorgesehen sein, der vorzugsweise mehr als 100 Referenzobjekt-Transformationen (Referenzobjekt-Muster) halten kann, wobei in einer Ausführungsform in Betracht gezogen wird, daß 400 oder 500 Referenzmuster für eine Menge vorhanden sind, die sich auf einen Artikel einer bekannten Art bezieht.
Die neuen Korrelationstechniken können ein Kombinationsabtasten ermöglichen, um eine große Anzahl von Bildpunkten/eine große Größe zu besitzen, wobei es folglich wert ist, Kameras mit einer großen Größe zu besitzen. Ein Eingangsvollbild von einer Kamera (oder der von ihm verwendete Abschnitt) kann z. B. in der Größenordnung von 1.000 Bildpunkten oder 10.000 Bildpunkten oder 100.000 Bildpunkten besitzen. Zweckmäßigerweise aber nicht notwendigerweise könnten die Kameraanordnungen 128 × 128 Bildpunkte, 256 × 256 oder 512 × 512 umfassen. Die Kameraanordnung muß nicht quadratisch sein – z. B. 128 × 512. Es muß keine binäre Anzahl von Bildpunkten in einer Richtung der Anordnung sein. Mit der neuen hybriden Korrelationstechnik ist es möglich, einen Korrelator zu besitzen, der 10.000, 20.000, 50.000, 100.000, 150.000, 200.000, 250.000 oder mehr Bildpunkte (oder Eingangsbildpunkte in Bereichen, die an den oberen oder unteren Enden von irgendeinem der obigen Punkte definiert sind) für ein Vollbild eingeben kann, mit Videovollbild-Raten (25–60 Hz) arbeiten kann und jedes Vollbild fourier-transformieren und Hunderte von Referenzmustern mit der Transformation des Vollbildes (der Szene) korrelieren kann.
In einer Verfeinerung kann die Vorrichtung physikalisch in wenigstens zwei Abschnitte aufgeteilt sein, wobei der erste Abschnitt eine optische Eingabevonichtung umfaßt, die optisch mit dem zweiten Abschnitt verbunden ist, der eine Basiseinheit umfaßt, die beschaffen ist, um die Fourier-Transformationen auszuführen, und die einen räumlichen Lichtmodulator enthalten kann.
Durch das Aufteilen der Vorrichtung in zwei optisch verbundene Abschnitte kann sich der erste Abschnitt in einem gefahrvollen oder gefährlichen Bereich befinden, während sich der (relativ) teure Computer für die Fourier-Transformationen und der räumliche Lichtmodulator in einem weiteren Bereich befinden können. Es ist möglich, mehr als einen ersten Abschnitt zu besitzen, der in einem gemeinsamen zweiten Abschnitt eingibt.
Die ersten und zweiten Abschnitte sind vorzugsweise über eine oder mehrere optische Fasern oder ein Faserbündel verbunden. Die durch den ersten Abschnitt erhaltenen aufgenommenen Bilddaten können längs dieser optischen Fasern übertragen werden. Ein Vorteil ist, daß die optischen Fasern nicht emittieren und im allgemeinen vor elektromagnetischen Störungen geschützt sind.
Vorzugsweise umfaßt der erste Abschnitt eine optische Eingabevorrichtung, die über eine oder mehrere optische Fasern oder ein oder mehrere elektrische Kabel mit einem Computer oder einer anderen elektrischen Vorrichtung verbunden ist.
Selbstverständlich könnte die Vorrichtung weiter in diskrete Unterabschnitte unterteilt sein. Durch das Bilden kleinerer Abschnitte ist es leichter, die Vorrichtung zu verpacken und zu transportieren, falls gewünscht.
Gemäß einem zweiten Aspekt schafft die Erfindung ein Verfahren zur Erfassung des Vorhandenseins eines oder mehrerer Referenzbilder in einer Szene, das die folgenden Schritte umfaßt:
Erzeugen eines aufgenommenen Szenenbildes, das wenigstens einem Teil einer Szene entspricht;
Verarbeiten wenigstens eines Teils des aufgenommenen Szenenbildes, um ein Szenenmuster zu erzeugen, das der Fourier-Transformation des aufgenommenen Szenenbildes entspricht;
elektronisches Kombinieren des Szenenmusters mit wenigstens einem Referenzmuster, das der Fourier-Transformation eines Referenzobjekts entspricht, und Erzeugen eines modulierten Strahls, der dem kombinierten Muster entspricht.
Das Verfahren kann außerdem die Schritte des Modulierens eines Strahls kohärenten Lichtes, indem ein räumlicher Lichtmodulator mit dem Strahl beleuchtet wird und diesem modulierten Licht erlaubt wird, sich zu einer Ausgangsebene auszubreiten; und des Überwachens oder des Anzeigens des durch den modulierten Strahl gebildeten Lichtmusters enthalten.
Das Verfahren umfaßt deshalb die Schritte des digitalen Verarbeitens des aufgenommenen Szenenbildes, um die anfänglichen Fourier-Transformationen auszuführen, die in einem Vander-Lugt-Schema optisch ausgeführt werden würden, und des optischen Verarbeitens des kombinierten Musters aus dem Szenenmuster und dem Referenzmuster, um die zweite Fourier-Transformationsoperation zu bilden. Die zweite Fourier-Transformation wird vorzugsweise ausgeführt, indem das Ausgangssignal des SLM durch eine Linse geleitet wird, um das optische Feld in der Ausgangsebene zu bilden.
Es kann eine Fourier-Transformation an dem aufgenommenen Szenenbild ausgeführt werden, wobei das resultierende (transformierte) Szenenmuster verarbeitet werden kann, um ein Szenenmuster zu erzeugen, das nur Phaseninformationen umfaßt. Dies unterscheidet sich von einer vollständigen Fourier-Transformation, in der Amplituden- und Phaseninformationen erzeugt werden. Die Unterdrückung der Amplitudeninformationen in den Fourier-Transformationen ist mehr oder weniger zum Ausführen einer Flankenerfassung oder Flankenverbesserung in den ursprünglichen Referenzobjekt- und Szenenbildern äquivalent, was bekannt ist, um die Unterscheidung eines Korrelators zu verbessern [siehe Literaturhinweis 5]. Selbstverständlich können sowohl die Amplituden- als auch die Phaseninformationen, jede mit einer gewählten Genauigkeit, in den transformierten Mustern beibehalten werden. Die Komplexität der Daten der Fourier-Transformation wird jedoch vorzugsweise verringert, indem eine binär zusammenhängende Transformation (mit entweder Realteil oder Imaginärteil – mit entweder Amplitude oder Phase) erzeugt wird, die den Multiplikationsprozeß beschleunigt, der notwendig ist, um das kombinierte Muster zu bilden, wobei dies den Korrelator schneller macht. Als ein extremes, aber trotzdem nützliches Beispiel wird, falls die Daten auf 1-Bit-Phasendaten (die außerdem als binäre Phasendaten bekannt sind) verringert werden, die Multiplikation des Szenenmusters und des Referenzmusters auf eine einfache logische Verknüpfung reduziert, die als eine XOR-Funktion bekannt ist. Für die Vollständigkeit wird erwähnt, daß das kombinierte Muster die Multiplikation der Fourier-Transformation des Referenzobjekts (des Referenzmusters) mit dem komplex Konjugierten der Fourier-Transformation des Bildes (des Szenenmusters) oder umgekehrt erfordert. In dem Fall der Daten lediglich der Phase vereinfacht dies die Berechnung, wobei sie eine Addition der Phasen der Referenz- und Szenenmuster wird. Die Verwendung der Daten lediglich der Phase vereinfacht außerdem die Anforderung an den SLM, wobei im Fall der binären Daten lediglich der Phase der SLM zweckmäßigerweise in der Form einer ferroelektrischen Flüssigkristallvorrichtung implementiert sein kann, die eine schnelle Operation aufweist. Das Referenzmuster kann selbstverständlich als ein binäres Muster gespeichert sein.
Am bevorzugtesten werden die fourier-transformierten Informationen verarbeitet, um ein Szenenmuster zu erzeugen, das lediglich binäre Informationen umfaßt. Folglich umfaßt in dem Fall der Informationen lediglich über die Phase wie oben das Szenenmuster lediglich binäre Daten, wobei angenommenen ein logischer Wert die Phasen über einen Bereich von 0 bis 180° bezüglich einer (beliebigen) Referenzphase codiert, während ein zweiter logischer Wert für die Phasen von 180–360 Grad gilt.
Wo das Szenenmuster eine binäre Darstellung lediglich der in einer Fourier-Transformation des aufgenommenen Szenenbildes enthaltenen Phaseninformationen umfaßt, kann das Referenzmuster gleichermaßen eine binäre Fourier-Transformation lediglich der Phase eines Referenzbildes umfassen. Es ist jedoch nicht zwingend, daß die Referenz- und Szenenmuster völlig gleiche Formate aufweisen.
Das Verfahren kann die Schritte des Kombinierens des Szenenmusters mit dem Referenzmuster unter Verwendung eines oder mehrerer Logikelemente umfassen. Ein Exklusiv-Oder-Gatter (XOR) kann verwendet werden, wobei davon ausgegangen wird, daß ein Komparator statt dessen verwendet werden kann (wobei jedoch ein XOR bevorzugt ist). Jedes Element des Szenenmusters kann mit seinem entsprechenden Element im Referenzmuster kombiniert werden, um ein entsprechendes Element im zweiten kombinierten Muster zu erzeugen. Folglich können für ein 512-mal-512-Bild 512*512-XOR-Operationen beim Erzeugen eines kombinierten Musters ausgeführt werden. Selbstverständlich können in einer Alternative Mehrfachbit-Szenenmuster mit Mehrfachbit-Referenzmustern kombiniert und optional nach dem Kombinieren digitalisiert werden. In allen Fällen werden die Berechnungen digital ausgeführt und auf diese Weise eine perfekte Ausrichtung der zwei Muster beibehalten, ein Vorteil gegenüber dem Vander-Lugt-Schema, in dem kleine mechanische Bewegungen die optische Ausrichtung zerstören können.
Das Verfahren kann ferner einen einleitenden Schritt des Verarbeitens eines oder mehrerer Referenzbilder enthalten, um unter Verwendung der FFT-Techniken das eine (transformierte) oder die mehreren (transformierten) Referenzmuster zu erzeugen.
Die Fourier-Transformation des aufgenommenen Szenenbildes kann unter Verwendung eines Algorithmus der schnellen Fourier-Transformation oder FFT-Algorithmus erzeugt werden. Weil nur digitalisierte Informationen lediglich über die Phase erforderlich sind, können sie zweckmäßig durch das Überwachen des Vorzeichens der reellen Komponente einer vollständigen FFT erzeugt werden, was eine Anzeige der Phase über einen geeigneten 180°-Bereich bereitstellt. Alternativ könnte das Vorzeichen des Imaginärteils des fourier-transformierten Datensatzes verwendet werden, um die Phase zu bestimmen.
Die Maske, die dem kombinierten Muster entspricht, kann unter Verwendung eines binären räumlicher Lichtmodulators erzeugt wer den, d. h. eines Modulators, der eine Anordnung von Bildpunkten umfaßt, die in Reaktion auf Signale von einem Multiplizierer, der das Szenenmuster und das Referenzmuster multipliziert, um das kombinierte Muster zu erzeugen, zwischen zwei Zuständen umgeschaltet werden können. Die Bildpunkte können Flüssigkristall-Bildpunkte umfassen, oder sie können eine mikrobearbeitete Vorrichtung sein, wie z. B. eine Anordnung aus Mikrospiegeln, die unter Verwendung von Mikrobearbeitungstechniken gebildet sind. Selbstverständlich kann ein SLM mit mehr als zwei Zuständen seines Modulationsmediums verwendet werden.
Der räumliche Lichtmodulator moduliert den kohärenten optischen Lichtstrahl. Der SLM kann eine Anordnung aus Elementen umfassen, die zwischen wenigstens zwei Zuständen umgeschaltet werden können, z. B. mit einer Phasendifferenz von 180 Grad. Im allgemeinen kann der SLM die Amplitude und/oder die Phasen modulieren, wobei er entweder in Transmission oder Reflexion arbeiten kann.
Der Lichtstrahl, der durch den SLM moduliert wird, kann unter Verwendung eines Lasers oder einer Laserdiode erzeugt werden. Er kann durch einen Strahldehner geleitet werden, bevor er den SLM erreicht.
Das Licht, das durch den SLM moduliert worden ist, kann sich, möglicherweise über eine Linse, zu Optik-Elektronik-Umsetzungsmitteln ausbreiten, wie z. B. einer Kamera.
Das Licht kann nicht notwendigerweise kohärent zu den Lasertoleranzen sein müssen. Es wird angenommen, daß es wichtig sein kann, daß das Licht räumlich kohärent ist, aber vielleicht nicht notwendi gerweise zeitlich kohärent. Das System kann in der Lage sein, mit einer Nicht-Laser-Lichtquelle zu arbeiten, z. B. einer LED. Während in Betracht gezogen wird, daß typischerweise ein Laser verwendet werden wird, weil er preiswert, leicht verfügbar, effizient und kohärent ist, ist es nicht beabsichtigt, auf diese Art der Lichtquelle eingeschränkt zu sein, falls andere Lichtquellen funktionieren. Es kann in der Tat Vorteile bei der Verwendung zeitlich inkohärenter Quellen geben, wie im Fall der inkohärenten Abbildung, wobei klar ist, daß die erörterten Erfindungen nicht notwendigerweise auf die kohärente Abbildung eingeschränkt sind.
In einer Verfeinerung kann der modulierte Lichtstrahl durch die Schritte des Aufnehmens einer Linse in den SLM selbst fokussiert werden. Es wird in Betracht gezogen, daß das Verfahren die Schritte der Vorverarbeitung des kombinierten Musters unter Verwendung der digitalen Signalverarbeitung enthalten könnte, um das Beugungsmuster einer Zonenplattenlinse aufzunehmen oder zu überlagern. Folglich können die gespeicherten Daten, die einem vorgegebenen bekannten Referenzbild entsprechen, modifiziert werden, damit sie nicht ausschließlich die getreuen Daten des Referenzbildes sind, sondern die Daten, wie sie durch das Überlagern einer Zonenplattenlinse modifiziert worden sind, wobei die modulierten Daten in dem Speicher gespeichert werden, der dem Referenzbild oder -muster entspricht.
In einem weiteren optionalen Schritt kann in nächster Nähe zum SLM ein Filter im optischen System vorgesehen sein. Es kann sich vor oder nach dem SLM befinden. Dies modifiziert die relative Wichtigkeit der verschiedenen Ortsfrequenzkomponenten. Es kann z. B. ein Gaußsches Filter oder ein Gaußdifferenzfilter (DOG-Filter) vorge sehen sein. Dieses Filter kann fest oder programmierbar sein, z. B. in der Form eines Amplituden-SLM. Die Programmierbarkeit fügt Flexibilität zum Gesamtprozessor hinzu, z. B. indem sie ihn zu verschiedenen Zeitpunkten mehr oder weniger unterscheidend gegenüber Bildern in der Szenerie macht, die ähnlich aber nicht völlig gleich zum Referenzbild sind. Es würde möglich sein, den Mustererkennungs-Korrelator anfangs in einer Betriebsart der verringerten Unterscheidung arbeiten zu lassen, wobei das programmierbare räumliche Filter auf "grob" eingestellt ist, und nach dem Feststellen, daß wenigstens eine approximierte Übereinstimmung mit irgend etwas in einer Szene festgestellt worden ist, den Korrelator abermals arbeiten zu lassen, wobei der Korrelator auf eine "Fein"-Betriebsart eingestellt ist, um eine verbesserte Unterscheidung zu besitzen. Dies könnte erreicht werden, indem das programmierbare Filter als ein variables räumliches Filter gesteuert wird. Ein Gaußsches Filter könnte z. B. vor dem kombinierenden SLM vorgesehen sein. Ein DOG-Filter kann nach dem SLM in der Nähe der Ausgangskamera der Fourier-Ebene vorgesehen sein.
In einer Verfeinerung kann mehr als ein kombiniertes Muster auf einem einzelnen SLM auf einmal angezeigt werden. Es können z. B. vier kombinierte Muster in einem entsprechenden Quadranten des SLM "gefliest" sein. Dies ermöglicht, daß vier Korrelationsmuster gleichzeitig in der Ausgangsebene erzeugt werden. Diese können sich auf die Kombination eines Szenenmusters mit mehr als einem Referenzmuster oder die Kombination mehrerer Referenzmuster mit einem Szenenmuster oder die Kombination mehrerer Szenenmuster mit mehreren Referenzmustern beziehen.
Das Muster in der Ausgangsebene, die die Brennebene der Linse oder der Linsen sein kann, kann überwacht werden, indem eine Kamera vorgesehen wird.
In einem noch weiteren Schritt kann das Verfahren den Schritt des Steuerns der Intensität des Lichtes, das die Ausgangskamera (oder einen weiteren Detektor) erreicht, enthalten. Dies kann erreicht werden, indem ein intelligenter räumlicher Lichtmodulator zwischen dem SLM und der Kamera vorgesehen wird. Das Licht könnte begrenzt werden, um im wesentlichen nur zu erlauben, daß Licht oberhalb oder unterhalb einer vorgegebenen Intensität die Kamera erreicht, oder es könnte sogar im wesentlichen nur Licht zwischen oberen und unteren Schwellen durchgelassen werden. In einer weiteren Konfiguration könnte der SLM als ein Lichtbegrenzer oder ein Begrenzer arbeiten. Es kann möglich sein, einen SLM oder mehrere SLMs zu besitzen, die sowohl die Lichtbeschränkung als auch die Lichtbegrenzung bereitstellen. Es wird bevorzugt, einen SLM zu besitzen, der in einem Korrelator als ein Begrenzer wirkt.
Ein Problem bei der Verwendung binärer Informationen lediglich über die Phase ist, daß in dem Muster in der Brennebene der Linse zwei Korrelationsspitzen erzeugt werden. Die zwei Spitzen sind symmetrisch um den Ursprung des Korrelationsmusters. Außerdem wird normalerweise eine große DC-Spitze im Ursprung erzeugt, die die Korrelationsspitzen überdecken kann, wenn es sich das Referenzbild nahe beim Zentrum des aufgenommenen Szenenbildes befindet.
Das Problem der doppelten Spitzen wird für das binäre Schema für einzigartig gehalten. Das Vorhandensein der zwei Spitzen erzeugt eine Mehrdeutigkeit beim Erfassen der Position der erkannten Objekte im Szenenbild.
Das Vorhandensein der doppelten Spitzen kann ausgenutzt werden, um ein erkanntes Objekt in der Szene zu verfolgen. Wenn die Aufnahmemittel (d. h. ein erster Optik-Elektronik-Umsetzer, wie z. B. eine Kamera) nicht direkt auf das Referenzobjekt in der Szene zeigen, werden zwei Spitzen erzeugt. Wenn perfekt auf es gezeigt wird, wird eine einzelne höhere Spitze erzeugt. Folglich kann durch das Einstellen der Orientierung des ersten Optik-Elektronik-Umsetzers, um die Ausgabe mit der höchsten Spitze aufrechtzuerhalten, ein sich bewegendes Objekt genau verfolgt werden, und/oder es kann ein Objekt in der Eingangskamera/den Szeneeingabemitteln zentriert werden.
Unter Verwendung dieses Effekts ist es möglich, es einzurichten, daß sich der erwünschteste Teil des Referenzobjektes, der zu lokalisieren ist, (z. B. ein Bolzenloch in einer Komponente oder ein Nummernschild eines Fahrzeugs), immer im Zentrum des Referenzbildes befindet, das verwendet wird, um das Referenzmuster zu bilden. Dann werden, wenn das System verwendet wird, um die Komponente und ihr Bolzenloch zu lokalisieren (oder um ein Nummernschild zu photographieren), zwei Spitzen erzeugt, falls sich eine Komponente im aufgenommenen Bild befindet. Wenn die Kamera genau auf das Bolzenloch zeigt, überlappen sich die zwei Spitzen im Zentrum des Korrelationsmusters. Es ist deshalb möglich, mit der Kamera und/oder einer anderen Vorrichtung (wie z. B. einen Arm, der einen Bolzen für das Einfügen in ein Bolzenloch trägt) zu zielen, indem die Kamera bewegt wird, bis sich die zwei Korrelationsspitzen überlappen.
Gemäß einem weiteren Aspekt umfaßt die Erfindung eine Vorrichtung zum Erfassen des Vorhandenseins und/oder des Ortes eines Referenzbildes in einer Szene, die Mittel, die beschaffen sind, um ein Szenenbild aufzunehmen und das Szenenbild zu verarbeiten, um ein Szenenmuster zu erzeugen, das eine Fourier-Transformation des Szenenbildes repräsentiert, und einen Speicher, der beschaffen ist, um mehrere Referenzmuster zu speichern, die mit dem Szenenbild zu korrelieren sind, umfaßt, wobei die Referenzmuster die Fourier-Transformationen der Referenzen sind, deren Referenzobjekte in den Referenzbildern zentriert sind.
Am bevorzugtesten befindet sich der signifikante Teil des Referenzobjektes im Zentrum des Referenzbildes, wenn jedes Referenzmuster in der Menge erzeugt wird.
In einem bevorzugten System sind anstatt der Referenzbilder die Referenzmuster gespeichert, wobei jedes Referenzmuster der Fourier-Transformation eines Referenzbildes entspricht.
Das Prinzip des Anordnens des wichtigsten Merkmals eines Objekts, das immer im Referenzbild zentriert sein soll, besitzt eine umfassendere Anwendbarkeit als nur diese Mustererkennungsvorrichtung, wobei es außerdem vorteilhaft in Systemen verwendet werden kann, in denen in der Ausgangsebene eine einzelne Korrelationsspitze erzeugt wird. Dies ist nützlich, weil es dem System erlaubt, alle Ausgangsignale über den intelligenten SLM zu summieren, wobei dann eine Spitze den Ort und das Vorhandensein des Referenzpunkts in der Szene kennzeichnet.
In einer weiteren Verfeinerung kann das Verfahren den weiteren Schritt des Anwendens eines chirp-codierten Musters auf das Spektrum des zum SLM geleiteten kombinierten Musters enthalten, um die Maske zu erzeugen. Das Chirp-Muster kann beschaffen sein, um Teile des durch die Linse gebildeten Musters zu fokussieren, so daß die DC-Komponente und jede der zwei Korrelationsspitzen in verschiedenen Brennebenen fokussiert sind. Das Verfahren kann ferner das Überwachen des in einer Brennebene gebildeten Musters umfassen, die gerade einer der Korrelationsspitzen entspricht. Eine Kamera oder eine andere Überwachungseinrichtung kann in der Brennebene vorgesehen sein, in der nur eine oder nicht alle Korrelationsspitzen fokussiert sind. Weil die DC-Komponente und die andere Korrelationsspitze defokussiert sind, sind sie unscharf und erscheinen nicht als getrennt. Sie werden außerdem durch den intelligenten räumlichen Lichtmodulator beseitigt, falls er vorhanden ist.
Das Chrip-Muster kann berechnet und vor der Digitalisierung zu jedem Referenzmuster hinzugefügt werden. Die Chirp-Referenz kann dann nach der Digitalisierung mit dem aufgenommenen Szenenmuster kombiniert werden.
Es gibt verschiedene andere Arten, den Chirp einzufügen und die an einen binären Phasen-SLM anzulegenden Daten zu digitalisieren. Der Chirp könnte z. B. mit dem Datensatz des aufgenommenen Bildes kombiniert werden. Alternativ könnte das chirp-codierte Muster als ein binäres Muster berechnet und mit einem digitalisierten Referenzmuster oder einem digitalisierten Szenenmuster kombiniert werden. In diesem Fall sind beide Korrelationsspitzen in der gleichen Ebene fokussiert, obwohl das DC-Signal defokussiert ist.
Abhängig von der Anwendung kann mehr als ein chirp-codiertes Muster verwendet werden.
Wenn die Korrelationsspitzen und die DC-Signatur in verschiedenen Ebenen fokussiert sind, kann es möglich sein, ein räumliches Filter einzufügen, um die DC-Spitze zu blockieren.
Das Verfahren kann die weiteren Schritte des periodischen Aufnehmens von Szenenbildern, des sequentiellen Kombinierens jedes entsprechenden Szenenmusters mit mehr als einem Referenzmuster zwischen der Aufnahme jedes Szenenbildes und des Ansteuerns des SLM mit jedem resultierenden kombinierten Muster zwischen der Aufnahme der Szenenbilder umfassen. Dies ermöglicht, daß das Szenenbild mit mehreren Referenzen (oder einer größeren Vielzahl von Referenzen) mit der Rate des Aufnehmens der Szenenbilder verglichen wird. Dies ist möglich, weil für jedes aufgenommene Bild nur eine digitale Transformation notwendig ist, die Referenzmuster im voraus berechnet werden und die optische Transformation fast unmittelbar auftritt. Die Berechnung der Referenzmuster im voraus beseitigt die Notwendigkeit, daß die zeitraubenden Fourier-Transformationen in Echtzeit zu berechnen sind.
Das Ausgangssignal kann die Ausgabe von einer CCD-Kamera umfassen. Es kann unter Verwendung eines Schwellendetektors und des begrenzenden SLM verarbeitet werden. Falls ein Fleck, der eine Intensität oberhalb einer vorgegebenen Schwelle besitzt, erfaßt wird, kann angenommen werden, daß das Referenzbild in der aufgenommenen Szene vorhanden ist, wobei ein Ausgangssignal weitergeleitet wird. Falls die Intensität unter der Schwelle liegt, wird kein Signal weitergeleitet. Dies beseitigt das Hintergrundrauschen. Dies kann sehr nützlich sein, falls die inverse Fourier-Transformation der kombinierten Muster integriert ist, bevor ein Detektor erreicht wird. Falls z. B. die weitergeleiteten Signale begrenzt werden, ist es viel leicht möglich, Hunderte von begrenzten Korrelationen auszuführen, ohne sich Gedanken darüber zu machen, was in irgendeinem Korrelationsausgabe-Detektorsystem geschieht (was ohne die Begrenzung eine Neueinstellung erfordern würde oder falsche Übereinstimmungen angeben würde, zurückzuführen auf den Aufbau integrierter Hintergrundsignale). Dies kann dem System erlauben, Nichtübereinstimmungen viel schneller zu verarbeiten, als wenn es keine Integration gäbe. Es kann möglich sein, daß die Eingabe von mehreren Szeneaufnahmevorrichtungen durch einen gemeinsamen Korrelator verarbeitet wird. Ein intelligenter SLM ist eine bevorzugte Art, das Obige auszuführen.
Gemäß einem weiteren Aspekt schafft die Erfindung einen intelligenten räumlichen Lichtmodulator, der eine Anordnung lichtmodulierender Vorrichtungen umfaßt, wobei jede Vorrichtung einen Lichtdetektor und wenigstens einen Bildpunkt eines modulierenden Mediums umfaßt, in dem der Lichtdetektor beschaffen ist, um die Intensität des auf ihn einfallenden Lichtes zu messen, um ein Ausgangssignal zu erzeugen, das beschaffen ist, um den Zustand des modulierenden Mediums zu steuern.
Obwohl auf einen "Bildpunkt" Bezug genommen wird und obwohl hauptsächlich vorgesehen ist, Bildpunkte zu besitzen (diskrete steuerbare Bereiche, die in einer Anordnung vorgesehen sind), ist es außerdem vorgesehen, daß der "Bildpunkt" allgemein genug interpretiert wird, um nicht in Bildpunkte aufgelöste Vorrichtungen (nicht getreu in Bildpunkte aufgelöste Vorrichtungen) zu umfassen, wie z. B. optisch adressierte SLMs, die einen Photoleiter oder einen anderen Photosensor enthalten.
Der intelligente SLM kann Prozessormittel enthalten oder nicht enthalten, die beschaffen sind, um das Eingangssignal zu verarbeiten, um ein Steuersignal zu erzeugen, das beschaffen ist, um den Zustand des modulierenden Mediums zu steuern. Jeder Bildpunkt besitzt typischerweise seine eigene elektrische Adressierungsschaltungsanordnung und möglicherweise seinen eigenen Detektor.
Das modulierende Medium kann z. B. ein Flüssigkristall-Material, ein lichtempfindliches Material oder einen beweglichen Abschnitt einer mikrobearbeiteten Vorrichtung oder andere Amplitudenmodulationsmittel umfassen.
Das jedem Bildpunkt oder jeder Gruppe der Bildpunkte zugeordnete Lichterfassungselement kann ein Ausgangsignal erzeugen, das mit der Intensität des einfallenden Lichtes zunimmt (oder abnehmen kann).
Die Prozessormittel können einen Komparator umfassen. Ein Eingang des Komparators kann mit einem Referenzsignal verbunden sein, während der andere mit dem Ausgang des Lichterfassungselements verbunden ist. Dies kann beschaffen sein, um ein Steuersignal zu erzeugen, das erforderlich ist, um den Flüssigkristall in einen Transmissionszustand zu schalten, wenn sich das Eingangssignal über einer vorgegebenen Schwelle oder unter einem vorgegebenen Schwellenpegel befindet.
Diese Anordnung kann eine Form des SLM schaffen, die beschaffen ist, um nur Licht unter einem vorgegebenen Schwellenpegel durchzulassen. Die Schwelle selbst kann extern gesteuert werden, z. B. in Reaktion auf die sich ändernden Lichtpegel im Lichtstrahl. Dies kann automatisch ausgeführt werden. Alternativ kann der SLM beschaffen sein, um nur Licht durchzulassen, falls es einen vorgegebenen Schwellenpegel der Intensität überschreitet. Dies könnte z. B. beim Entfernen von Hintergrundlicht mit niedrigen Pegel in einem Bild nützlich sein.
In einer anderen Anwendung können die Prozessormittel beschaffen sein, um das Steuersignal zu erzeugen, das erforderlich ist, um den Zustand des Flüssigkristalls (oder eines anderen modulierenden Mediums) in einen Zustand der totalen oder teilweisen Extinktion zu ändern, wenn die Eingabe den Schwellenwert überschreitet. In dieser Vorrichtung, die die durchgelassene Intensität begrenzt, kann das Lichterfassungselement hinter einem Bildpunkt oder auf einer Seite vorgesehen sein. Falls es auf einer Seite vorgesehen ist, ist die Intensität des Lichtes auf dem Detektor unabhängig vom Zustand des Bildpunktes. Falls sich der Detektor hinter dem Bildpunkt befindet, wird das Licht, das den Detektor erreicht, zuerst durch die Operation des Bildpunktes moduliert, wobei eine Rückkopplungsschleife gebildet wird.
In seiner einfachsten Form kann der intelligente räumliche Lichtmodulator eine regelmäßige zweidimensionale Anordnung von völlig gleichen lichtmodulierenden Vorrichtungen umfassen. Jede lichtmodulierende Vorrichtung kann direkt von einer einzelnen Spannungsversorgung, wie z. B. einer Batterie, durch eine Struktur leitender Elektroden gespeist werden. Diese kann auf dem Substrat gebildet sein. Sie kann metallisch sein oder sie kann aus einem optisch transparenten Material, wie z. B. Indiumzinnoxid ITO, gebildet sein. In einer einfacheren Anordnung kann der Modulator direkt durch den Detektorausgang angesteuert werden. Ein Bildpunkt kann durch ein durch einen Photodetektor erzeugtes und direkt an ihn, möglicherweise über einen Widerstand, angelegtes Signal gesteuert werden. Es können mehrere Bildpunkte, wie z. B. eine Zeile aus Bildpunkten oder eine Anordnung aus Bildpunkten, durch lichtempfindliche Signale angesteuert werden. Eine gemeinsame Leistungsquelle kann die Leistung, typischerweise eine gemeinsame Spannung, an jeden photosensorgesteuerten Eingang zu den Bildpunkten liefern.
Vorzugsweise sind der Detektor und die Verarbeitungsmittel auf einen relativ kleinen Bereich im Vergleich zum zugeordneten Bildpunkt oder zu den zugeordneten Bildpunkten beschränkt. Sie können mit dem Modulationsmedium auf einem Substrat einteilig gebildet sein.
Der intelligente räumliche Lichtmodulator kann unter Verwendung eines Silicium-auf-Saphir-Substrats oder eines Silicium-auf-Spinell-Substrats erzeugt werden.
Gemäß einem weiteren Aspekt schafft die Erfindung ein Verfahren zum Modulieren eines Lichtstrahls, das die Schritte des Vorsehens wenigstens eines Detektors im Weg des Lichtstrahls und des Vorsehens wenigstens eines Bildpunktes eines modulierenden Mediums im Weg des Lichtstrahls und in dem Fall, daß das Ausgangssignal des Detektors eine vorgegebene Bedingung erfüllt, des Änderns des Modulationszustands des Bildpunktes, um einen Teil des Lichtstrahls zu dämpfen, umfaßt.
Der Detektor und der Bildpunkt können in einer einzelnen Vorrichtung vorgesehen sein, die ferner Prozessormittel enthalten kann, die beschaffen sind, um das Ausgangsignal des Detektor zu verarbeiten.
Im Fall eines Begrenzers umfaßt das Verfahren vorzugsweise den weiteren Schritt des Vorsehens des Detektors hinter dem Bildpunkt, so daß der Detektor und der Bildpunkt eine Rückkopplungsschleife bilden. Dies ändert den Betrag des Lichtes, der durch den Bildpunkt durchgelassen wird, um auf einen stabilen Pegel des Bildpunkts gesteuert zu werden.
Das Verfahren kann ferner das Verarbeiten des durch den Detektor erzeugten Signals vor dem Steuern des Bildpunktes umfassen. Dies kann unter Verwendung irgendeiner bekannten digitalen Logik oder irgendeiner bekannten analogen Verarbeitungstechnik ausgeführt werden.
Die vorgegebene Bedingung kann erfüllt sein, wenn sich das auf den Detektor einfallende Licht unter einer vorgegebenen Schwelle befindet oder wenn die Intensität des auf den Detektor einfallenden Lichtes eine vorgegebene Schwelle überschreitet.
Das Verfahren kann abermals den Schritt des Verarbeitens des Ausgangssignals des Detektor unter Verwendung irgendeiner bekannten digitalen Logik oder irgendeiner bekannten analogen Verarbeitungstechnik umfassen.
Das Verfahren kann verfeinert werden, indem eine CCD-Kamera (oder ein anderer in Bildpunkte aufgelöster Detektor) hinter dem einen oder den mehreren Bildpunkten vorgesehen ist. In diesem Fall können die Bildpunkte in einer Anordnung vor der CCD-Kamera angeordnet sein.
Jeder Bildpunkt der Kamera kann auf einen entsprechenden Bildpunkt des SLM ausgerichtet sein. Dies sichert, daß kein Licht die CCD-Kamera erreicht, wenn alle Bildpunkte moduliert werden, um das Licht zu blockieren. Dies kann z. B. auftreten, falls das ganze Licht in dem Lichtstrahl den Schwellenwert überschreitet (oder nicht überschreitet).
Gemäß einem weiteren Aspekt schafft die Erfindung ein Verfahren zur optischen Mustererkennung und/oder zur optischen Lokalisierung, das die Schritte umfaßt:
Kombinieren eines Szenenmusters, das ein Szenenbild repräsentiert, mit einem Referenzmuster, das ein Referenzbild repräsentiert, um ein kombiniertes Chirp-Muster zu erzeugen (wobei das Referenz- und/oder Szenenmuster mit einem Chirp-Signal kombiniert worden sein kann);
Anzeigen des kombinierten Chirp-Musters auf einem räumlichen Lichtmodulator;
erzeugen eines Lichtstrahls, der durch den räumlichen Lichtmodulator moduliert wird; und
Überwachen des modulierten Lichtstrahls, um das Vorhandensein und/oder den Ort des Referenzbildes im aufgenommenen Szenenbild zu erfassen.
Das Verfahren kann den weiteren Schritt des Kombinierens eines Szenenmusters, das eine Fourier-Transformation lediglich der binären Phase eines Bildes umfaßt, mit einer Fourier-Transformation (einem Fourier-Muster) lediglich der binären Phase eines Referenzbildes umfassen. In diesem Fall, in dem zwei Korrelationsspitzen erzeugt werden, kann der Chirp diese zwei Spitzen in getrennten Ebenen fokussieren, um die Probleme der Mehrdeutigkeit im Objektort zu überwinden oder zu verbessern.
Das Verfahren kann ferner den Schritt des Vorsehens einer optischen Linse benachbart zum SLM, z. B. zwischen dem SLM und zweiten Optik-Elektronik-Umsetzungsmitteln, umfassen. Alternativ kann eine Zonenplattenlinse hinzugefügt werden. Die Verwendung eines Chirps und/oder einer Zonenplattenlinse kann möglicherweise der Korrelator kompakter machen, z. B. durch die Beseitigung der Notwendigkeit für eine optische Linse.
Das Szenenbild oder -muster, das Referenzbild oder -muster und das kombinierte Chirp-Muster können digitale Daten umfassen.
Ein weiterer Vorteil, der demonstriert worden ist, ist, daß die Anwendung eines Chirp-Signals erlaubt, daß ein wenig nichtplanare SLMs verwendet werden, während trotzdem ein verwendbares Korrelationsmuster erzeugt wird. Derartige nichtplanare SLMs können sich durch Unvollkommenheiten im Fertigungsprozeß ergeben, wobei sie viel billiger als die optischen flachen SLMs sind, weil die letzteren eine niedrigere Ausbeute besitzen.
Nun werden lediglich beispielhaft einige Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf die beigefügte Zeichnung beschrieben, worin:
1 eine Veranschaulichung einer typischen Entwicklung eines optischen Vander-Lugt-Korrelators des Standes der Technik für die Verwendung in der Mustererkennung ist;
2 ein allgemeines Schema einer Mustererkennungsvorrichtung gemäß einem Aspekt der vorliegenden Erfindung ist;
3 eine andere Veranschaulichung ist, die die hauptsächlichen Einzelteile der Vorrichtung nach 2 zeigt;
4 die verschiedenen Bilder und Muster veranschaulicht, die während der Verarbeitung eines Bildes durch die in den 2 und 3 gezeigte Vorrichtung gebildet werden;
5 eine schematische Veranschaulichung des Vorhandenseins von zwei Korrelationsspitzen in der Fourier-Transformationsebene eines binären Phasenmusters ist. Das einfache Beispiel ist in einem binären Phasenbeugungsgitter mit zwei Hauptbeugungsordnungen gezeigt. Für die Einfachheit ist die Fourier-Transformationslinse aus dieser Figur weggelassen worden;
6 die Erzeugung einer DC-Spitze und von zwei Korrelationsspitzen, die in Ebenen gebildet werden, die in der Richtung der optischen Achse beabstandet sind, unter Verwendung eines Chirp-Musters schematisch zeigt;
7 eine experimentell aufgezeichnete graphische 3D-Darstellung des Korrelationsmusters ohne einen Chirp veranschaulicht, die Figur zeigt die zentrale DC-Spitze, die eine größere Intensität und einen größeren Bereich als die zwei symmetrisch angeordneten Korrelationsspitzen besitzt;
8 das entsprechende Muster zeigt, das erzeugt wird, wenn ein Chirp während der Verarbeitung angewendet worden ist, wobei sie zeigt, daß nur eine Spitze mit der DC-Spitze fokussiert ist, und daß die zweite Korrelationsspitze defokussiert ist;
9 ein alternatives optisches System zum Abtasten eines zweidimensionalen Korrelationsmusters, das unter Verwendung einer Anordnung von Lichtquellen und unter Verwendung eines SLM und einer Linse über (a und b) einer linearen Detektoranordnung; und (c) einer Anzahl von linearen Detektoranordnungen erzeugt worden ist, zeigt;
10 ein typisches Problem zeigt, bei dem Licht mit hoher Intensität eine Schädigung der Netzhaut des Beobachters oder thermische Defokussierung oder Überlastung/Blendung in einer Kamera verursachen kann;
11 ein Schema eines "intelligenten" räumlichen Lichtmodulators zeigt;
12 in einer Seitenansicht ein Schema eines modifizierten "intelligenten" SLM zeigt;
13 ein Schema einer Verfeinerung eines optischen Mustererkennungsschemas ist, in dem eine Anzahl von Mustern gleichzeitig auf einen räumlichen Lichtmodulator "gefliest" wird,
14 ein Schema ist, das veranschaulicht, wie eine Mustererkennungsvorrichtung ähnlich zu der, die in bezug auf die 2 und 3 beschrieben ist, unter Verwendung optischer Fasern in zwei oder mehr Abschnitte aufgespalten werden kann, so daß sie z. B. in gefährlichen Umgebungen verwendet werden kann;
15 die verschiedenen Begriffe veranschaulicht, die verwendet werden, um die durch die Vorrichtung verarbeiteten Daten zu definieren, um ein Korrelationsmuster zu erzeugen;
16 eine VCSEL-Anordnung veranschaulicht, die zu einer linearen Detektoranordnung senkrecht ist, über der ein zweidimensionales Muster abgetastet werden kann, indem die Beleuchtung der VCSEL-Anordnung gesteuert wird;
17 eine Detektoranordnung veranschaulicht, die eine Anzahl paralleler Zeilen von Detektoren umfaßt, wobei eine abwechselnd nach links oder rechts gleichzeitig ausgelesen wird;
18 eine graphische Darstellung ist, die zeigt, wie ein Bildpunkt der beleuchtenden Strahlung verwendet werden kann, um ein Bild einer Scheibe einer Szene aufzunehmen, um das Durcheinander im Hintergrund zu verringern, und um zu ermöglichen, daß eine Anzahl derartiger Scheiben eines Objekts korreliert wird, um die Genauigkeit der Identifizierung und/oder der Lokalisierung zu verbessern;
19 ein Verfahren zum Verringern der Zeit veranschaulicht, die beim Minimisieren der Dissoziation der Flüssigkristall-Bildpunkte in einem SLM verbraucht wird;
20 ein Beispiel der Anwendung eines optischen Korrelators beim Identifizieren der Pupillen aus einer aufgenommenen Szene, die einem Gesicht entspricht, zeigt, und;
21 eine schematische Ansicht von zwei möglichen Anordnungen eines "intelligenten" SLM ist, die einen enthält, in dem jede Vorrich tung in der Anordnung einen Detektor umfaßt, der eine Gruppe aus vier Bildpunkten steuert, die um jeden Detektor beabstandet sind.
In 2 der beigefügten Zeichnung ist eine schematische Darstellung einer Mustererkennungsvorrichtung gemäß wenigstens einem Aspekt der Erfindung gezeigt. Eine alternative graphische Darstellung, die die Schlüssel-Einzelteile veranschaulicht, die verwendet werden, um eine Prototypvorrichtung im Laboratorium zu konstruieren, ist in 3 gezeigt.
Die Vorrichtung ist ein Hybridsystem, in dem ein Teil der Verarbeitung durch digitale Elektronik und ein Teil der Verarbeitung optisch ausgeführt wird. Die Informationen werden von Elektronen in Photonen und umgekehrt mit Hilfe von zwei Optik-Elektronik-Umsetzungsmitteln und einem Elektronik-Optik-Umsetzungsmittel umgesetzt.
Eine Beispielanwendung ist die Erfassung des Vorhandenseins eines Autos in einer Straßenszene. Das System kann verwendet werden, um aus den in den Referenzdaten gehaltenen Informationen zu identifizieren, ob ein spezieller Typ (z. B. ein spezielles Modell) des Autos vorhanden ist. Es kann außerdem in wenigstens einer Betriebsart beschaffen sein, um den Ort des Autos in der Szene zu identifizieren.
Im im vorhergehenden Absatz beschriebenen Beispiel wird ein Bild der Szene unter Verwendung einer ladungsgekoppelten Vorrichtung 10, wie z. B. einer CCD-Kamera, aufgenommen. Im Laboratorium wurde eine Kamera mit 718 × 512 Bildpunkten verwendet. Die gewählte Kamera war für sichtbares Licht empfindlich, obwohl keine Annahmen über den praktikablen Bereich der Wellenlängen, die durch die Kamera aufgezeichnet werden, gemacht werden sollten. Der Betrieb im Infraroten ist manchmal bevorzugt, da er tags oder nachts arbeitet. Es wird in der Tat in Betracht gezogen, daß die Kamera weggelassen und das System verwendet werden könnte, um andere Bildtypen oder abstraktere Daten zu verarbeiten, die in einer zweidimensionalen Anordnung angeordnet sein können.
Ein weiteres Beispiel ist die Identifikation des Auges einer Person aus einem Bild eines Gesichts, wie in 20 gezeigt ist.
Die Kamera erzeugt jedes fünfundzwanzigstel einer Sekunde ein gefangenes Szenenbild aus 512 × 512 Bildpunkten. Jedes aufgenommene Szenenbild (oder ausgewählte Szenenbilder) wird (werden) in einen temporären Speicher in einem digitalen Speicher 11 heruntergeladen.
Der digitale Speicher 11 (oder ein separater Speicher) speichert außerdem eine Menge von Referenzmustern. In dem Beispiel kann jedes Muster der Fourier-Transformation eines Bildes von entweder einem anderen Typ des Autos oder einem aus einem anderen Winkel betrachteten Auto oder aus einer Vielzahl verschiedener Winkel und/oder aus einer Anzahl verschiedener Entfernungen betrachteten verschiedenen Autos entsprechen.
Der digitale Speicher ist als ein Teil eines Personal-Computers vorgesehen (wie in 3 gezeigt ist). Dieser nimmt die Szenenbilder von der CCD-Kamera mit Videoraten unter Verwendung einer dedizierten Bilderfassungskarte 13 auf.
Der im Speicher gespeicherte Datensatz des aufgenommenen Szenenbildes wird zu einem dedizierten Transputer 14 geleitet (in der Version, wie sie gegenwärtig arbeitet, ein Transputer wird jedoch nicht als wesentlich betrachtet), der ein Szenenbild erzeugt, das einer Fourier-Transformation des aufgenommenen Szenenbildes entspricht. Die Fourier-Transformation wird mit der Aufnahmerate der Bilderfassungskarte ausgeführt.
Die tatsächlichen Daten der Fourier-Transformation, die verwendet werden, um das Szenenmuster zu konstruieren, werden berechnet, indem anfangs die komplexe zweidimensionale Fourier-Transformation des Datensatzes des aufgenommenen Bildes unter Verwendung einer FFT-Routine berechnet wird. Als nächstes ignoriert der Transputer einige der in den komplexen Daten codierten Informationen und bildet ein Szenenmuster, das die binären Daten lediglich der Phase umfaßt. Dies sind selbstverständlich nicht komplexe Daten.
Die Referenzmuster werden außerdem als binäre Daten lediglich der Phase codiert, die aus der Fourier-Transformation der Referenzbilder oder -objekte erzeugt worden sind. Die spart im Vergleich zu Mehrfachbit-Daten Speicher. Um zu sichern, daß das System so schnell wie möglich arbeitet, werden diese Referenz-Fourier-Transformationen vor der Verwendung des Systems berechnet und im Speicher gespeichert. Falls nur die unbearbeiteten Daten des Referenzobjektes gespeichert worden sind, würde jede Fourier-Transformation der Referenz in Echtzeit berechnet werden müssen. Dies würde einen Engpaß des Systems verursachen. Der Referenzspeicher kann unter der Steuerung des Anwenders programmierbar sein (um möglicherweise die im aktiven "lebenden" Speicher gehaltenen Referenzmuster zu ändern).
Um ein Referenzbild im aufgenommenen Szenenbild zu erkennen und/oder zu lokalisieren, muß das Referenzmuster mit dem aufgenommenen Szenenmuster verglichen werden. Für angenommen vierhundert Referenzmuster, die mit jedem aufgenommenen Szenenmuster zu vergleichen sind, muß der Prozeß des Kombinieren dieser Muster mit einer Rate von vierhundert Kombinationen innerhalb einem fünfundzwanzigstel einer Sekunde ausgeführt werden, falls das System in Echtzeit mit Videoaufnahmenraten arbeiten soll.
Das aufgenommene Szenenbild wird verarbeitet, um die binären Daten lediglich der Phase im Szenenmuster zu erzeugen. Dies repräsentiert ein Fourier-Transformationsmuster mit verringerter Komplexität für das Bild. Weil das Referenzmuster außerdem in der Form der binären Daten lediglich der Phase vorliegt, können die zwei Muster unter Verwendung einer schnellen einfachen Logik-Schaltungsanordnung, wie z. B. einem Exklusiv-Oder-Gatter, kombiniert werden. Die kombinierten Bild- und Referenzmuster bilden ein kombiniertes Muster, das auf dem durch einen Controller 15a angesteuerten räumlichen Lichtmodulator (SLM) 15 angezeigt wird.
Der im Laboratoriumsprototyp verwendete SLM 15 umfaßt einen schnellen räumlichen Bitebenen-Lichtmodulator (FBPSLM), der als Teil der gemeinsamen Zusammenarbeit zwischen dem Anmelder und der Cambridge University, England, entwickelt worden ist.
Die Vorrichtung ist mit ihrer eigenen Steuerkarte 15a versehen, die den Speicher zum Speichern der Datensätze der Referenzobjekte enthält. Es können einige hundert Referenzmuster als Informationen lediglich über die binäre Phase gespeichert sein. Diese können in Listen gruppiert sein. Die Referenzmuster können z. B. verschiedenen Bauarten der Autos entsprechen. Eine Liste kann ein Referenzmuster für jede Bauart umfassen. Die anderen können alle Referenzmuster für eine einzelne Bauart umfassen.
Der Personal-Computer 12 steuert (über eine Kommunikationsleitung, auf welche Liste der Referenzmuster zuzugreifen ist, um ein spezielles kombiniertes Muster zu bilden. Es ist bevorzugt, daß eine Menge der kombinierten Muster gebildet wird, indem der Reihe nach alle relevanten Listen der Muster sequentiell durchlaufen werden. Es können jedoch frühere Informationen verwendet werden, um die Suche zu verringern oder um die Reihenfolge der Durchsuchung der spezifischen Listen zu modifizieren, d. h. falls nur gewünscht wird, eine Bauart des Autos zu identifizieren. Es ist selbstverständlich klar, daß, falls das System die Liste A durchsucht und eine Übereinstimmung für das Muster X findet, die Steuermittel dann die Tatsache verwenden können, daß es das Muster X war, das übereingestimmt hat, um die Auswahl der nächsten zu durchsuchenden Liste zu steuern (z. B. die Liste B anstatt der Liste C, die durchsucht werden würde, falls das Muster Y übereinstimmend gewesen ist).
Wie erwähnt worden ist, wird die Multiplikation des Szenenmusters mit einem Referenzmuster unter Verwendung eines XOR-Gatters ausgeführt, weil nur binäre Informationen vorhanden sind. Dies ist ein sehr schneller Prozeß und erreicht infolge seiner digitalen Art eine perfekte Ausrichtung der Muster.
Ein gegenwärtig verfügbarer FBPSLM besitzt eine eingeschränkte Auflösung und kann nur 320 × 240 Bildpunkte anzeigen, die verwendet werden können. In diesem Fall werden die FFT-Muster als Muster aus 512 × 512 Bildpunkten berechnet, wobei die Daten außerhalb der zentralen 320 × 240 Bildpunkte des Musters ignoriert werden. Dies wirkt als eine räumliche Tiefpaßfilterungsoperation. Es wird jedoch in Betracht gezogen, daß größere SLMs verwendet werden könnten, wobei einer gegenwärtig entwickelt wird. Dieses Prinzip, daß dem SLM weniger Daten vorgelegt werden als aufgenommenen worden sind, gilt für andere Größenbereiche.
Die durch den FBPSLM angezeigten tatsächlichen kombinierten Muster (Masken), die wenigstens einem Teil des kombinierten Musters entsprechen, werden verwendet, um einen Lichtstrahl zu modulieren. Wie in 3 gezeigt ist, wird der Lichtstrahl durch einen Laser 16 erzeugt, bevor er durch einen Strahldehner und einen linearen Polarisator 17 geleitet wird. Der gedehnte polarisierte kohärente Strahl wird auf den FBPSLM 15 gestrahlt, der in einer Reflexionsbetriebsart arbeitet. Das vom FBPSLM reflektierte Licht definiert einen modulierten Strahl, der durch das durch den FBPSLM angezeigte Muster codiert ist. Der FBPSLM kann etwa zehntausend Muster (Masken) pro Sekunde anzeigen.
Der FBPSLM moduliert die Phase des Lichtstrahls. Jeder Bildpunkt im FBPSLM vermittelt entweder null oder eine halbe Wellenlänge Verzögerung auf die einfallende Signalform (Bildpunkt für Bildpunkt). Nur die relative Phase ist wichtig. Der Zustand jedes Bildpunkts hängt vom binären Wert des entsprechenden Abtastwerts des zweiten Zwischendatensatzes ab. Der FBPSLM wendet folglich ein binäres Phasemodulationsmuster auf den Strahl an.
Der reflektierte Strahl wird durch eine Linse 18 optisch fouriertransformiert. Der Durchgang des Lichtes durch die Linse transfor miert das modulierte Muster, um in der hinteren Brennebene der Linse das erforderliche Korrelationsmuster zu erzeugen, das durch eine CCD-Anordnung 19 erfaßt werden kann, die sich in der Brennebene befindet.
Wenn irgendwelche zwei Muster (die aus der Referenz und der Szene abgeleitet worden sind) übereinstimmen, dann besteht das aus dem Referenzmuster und dem Szenenmuster und der Linse erzeugte Korrelationsmuster aus zwei scharf fokussierten Spitzen, die symmetrisch um den Ursprung versetzt sind. Dies ist in 5 für den besonders einfachen Fall eines Phasenumkehrgitters veranschaulicht. Außerdem wird eine große Spitze im Ursprung gebildet, die im Prinzip auf Zwischenbildpunktbereiche des SLM durchzuführen ist. Das Vorhandensein von zwei Spitzen ist eine Nebenwirkung der Digitalisierung der Phase der Daten der Fourier-Transformation.
Aus den zwei Spitzen ist es leicht, zu bestimmen, ob ein spezielles Referenzmuster in einer Szene vorhanden ist. Falls eine Spitze vorhanden ist, wenn ein Referenzmuster mit einem Szenenmuster korreliert ist, kann angenommen werden, daß die Referenz in der Szene vorhanden ist. Falls keine Korrelationsspitzen gebildet werden, kann angenommen werden, daß das Referenzbild nicht vorhanden ist. Die Entscheidung kann mittels einer Schwellenschaltung getroffen werden.
Das Korrelationsmuster ermöglicht außerdem, daß der Ort des Referenzbildes in der Szene mit einiger Mehrdeutigkeit bestimmt wird. Im allgemeinen steht der Ort der Spitzen in der (x, y)-Ebene des Korrelationsmusters mit der Position des Referenzbildes in der Szene in Beziehung.
Es ist möglich, dies zu verwenden, um ein Objekt zum lokalisierten Objekt zu führen. Es kann z. B. eine Bohrspitze zu einem identifizierten Bereich geführt werden, wo ein Loch erforderlich ist. Es kann eingerichtet werden, daß die zwei Spitzen in eine konvergieren, wie die ersten Optik-Elektronik-Mittel zum Referenzobjekt in der Szene gesteuert werden.
Die in der Brennebene der Linse angeordnete Ausgangskamera erzeugt ein Ausgangsignal, das wiederum analysiert werden kann, um das Vorhandensein und/oder den Ort eines Referenzobjektes in der Szene zu erfassen. In einem einfachen Fall wird das Ausgangssignal der Kamera über die Zeit integriert, z. B. um eine Anzahl von Referenzobjekt-Maßstäben und/oder -Orientierungen abzudecken, um die erforderliche Ausleserate der Vollbilder der Kamera vom gegenwärtig idealen Wert von angenommen 10 kHz zu verringern.
Alternativ kann ein Signal aus dem durch die Kamera aufgezeichneten Muster erzeugt werden, das digital verarbeitet werden könnte, um die Korrelationsspitzen zu identifizieren. Das aufgenommene Szenenbild, das die Szene repräsentiert, könnte z. B. auf einem Bildschirm angezeigt werden, wobei eine Markierung überlagert werden kann, um den Ort eines Referenzobjektes in der Szene anzuzeigen. Diese Markierung könnte z. B. ein Fadenkreuz sein. Dies könnte z. B. nützlich sein, wenn die Erfindung in Kombination mit einem medizinischen Laser verwendet wird, der beschaffen ist, um bestimmte Gewebeteile und keine anderen wegzubrennen, falls er geeignet ausgerichtet ist und geeignet gespeist wird.
Es ist klar, daß die ersten Optik-Elektronik-Umsetzungsmittel (die Eingangskamera) ein Vollbild mit der Rate von fünfundzwanzig Vollbildern pro Sekunde aufnehmen könnten. Bei einer Menge aus vierhundert Referenzmustern werden jede Sekunde zehntausend Muster auf dem SLM angezeigt. Dies bedeutet wiederum, daß die Ausgangskamera im Idealfall eine Ausgangsrate von zehntausend Vollbildern pro Sekunde besitzen muß, dies ist aber nicht wesentlich (das Ausgangssignal könnte z. B. integriert werden).
Nachdem das grundlegende Mustererkennungsschema beschrieben worden ist, werden im folgenden einige vorteilhafte Merkmale, von denen viele optional sind, beschrieben. Sie können selbständige Erfindungen umfassen, die nicht notwendigerweise auf das Gebiet der Mustererkennung eingeschränkt sind.
Die Transformationen lediglich der binären Phase
Wie beschrieben worden ist, ist das Wesen der Erfindung die Kombination digitaler und optischer Transformationen in einem Mustererkennungsschema.
Die bevorzugte Transformation für die Verwendung mit den digitalen Daten ist die aus der Fourier-Transformation abgeleitete 1-Bit-Transformation der Daten lediglich der binären Phase. Die Verwendung der binären Daten lediglich der Phase ist für die Verwendung mit schnellen binären Modulatoren, wie z. B. ferroelektrischen Flüssigkristall-SLMs, die den FBPSLM enthalten, hervorragend geeignet. Als eine Alternative könnten Mehrfachbitebenen-Transformationsdaten verwendet werden, obwohl für den maximalen Nutzen ein auf mehreren Modulationsebenen basierender räumlicher Lichtmodulator notwendig sein würde. Gegenwärtig sind irgendwelche geeigneten kommerziellen Vorrichtungen dieses Typs nicht bekannt.
Der Schlüsselvorteil der Verwendung der Informationen über die Fourier-Transformation lediglich der Phase (das Verwerfen der Amplitudeninformationen) besteht darin, daß es die Erfassung von Referenzen in einer "verrauschten" Szenerie mit einem nicht weißen Ortsspektrum verbessert.
Der Hauptgrund für die Verwendung digitalisierter Informationen lediglich über die Phase für den ersten Zwischendatensatz und die Referenzdatensätze ist die inhärente Kompatibilität mit Flüssigkristall-SLMs mit binären Verhalten und die größeren Geschwindigkeiten, mit denen die binären Daten, angenommen unter Verwendung eines Exklusiv-Oder-Gatters, multipliziert werden können.
Im allgemeinen führt die Verwendung binärer Phaseninformationen zu einer Verschlechterung der Leistung, die auf die Grobheit der Quantisierung der Phasendaten zurückzuführen ist. Außerdem führen binäre Daten dazu, daß zwei Korrelationsspitzen in der Ausgangsebene der Fourier-Transformationslinse gebildet werden, wie in 5 veranschaulichend gezeigt ist.
Die Erzeugung der zwei Spitzen ist in der früheren Literatur erörtert. Selbstverständlich gilt dies außerdem für das ganze Ausgangsfeld, nicht nur für die Korrelationsspitzen. Im allgemeinen ist dieses Verhalten unerwünscht, weil es zu einer Mehrdeutigkeit beim Lokalisieren eines identifizierten Zieles führt. Dieses besondere Phänomen kann jedoch bei der Identifizierung und Verfolgung von Referenzobjekten ausgenutzt werden.
Es kann gezeigt werden, daß der Ort der Korrelationsspitzen in der Ausgangsebene (bezüglich des Zentrums) ein Maß der relativen Verschiebungen des Referenzobjektes im Bild, das verwendet worden ist, um den Referenzdatensatz zu erzeugen, und der in der aufgenommenen Szene zu identifizierenden Einzelheit ist. Falls z. B. das Objekt und die Referenz von den Ursprüngen ihrer entsprechenden Szenen gleich verschoben sind, gibt es keine relative Verschiebung, wobei eine einzelne Ausgangsspitze am Ursprung auftritt.
Es ist festgestellt worden, daß die Referenz beliebig gelegen sein kann, damit die in den 2 und 3 gezeigte Mustererkennungsvorrichtung richtig arbeitet. In dem Fall der Objektverfolgung schafft dies einen wertvollen Freiheitsgrad. Weil es oft erforderlich ist, einen Fleck auf einem sich bewegenden gesuchten Objekt zu verfolgen, das in der Szene vorhanden ist. Es ist zweckmäßig, diesen Fleck zum Zentrum des Referenzbildes (das verwendet wird, um das Referenzmuster zu erzeugen) für jeden Maßstab/jede Orientierung des gesuchten Referenzobjektes zu machen. In diesem Fall befindet sich die Ausgangskorrelationsspitze im Zentrum der Ausgangsebene, wenn sich der Fleck auf dem Referenzobjekt im Zentrum der Eingangsebene befindet. Folglich besteht im Verfolgungsprozeß das Ziel darin, die Korrelationsspitze im Zentrum der Ausgangsebene zu halten, wenn der gewünschte Bereich des Szenenobjekts immer zentral auf eine Verfolgungsvorrichtung (z. B. eine Kamera oder einen Bohrer) ausgerichtet ist. Im Fall des Mustererkennungssystems der vorliegenden Erfindung, das binäre Phasen-SLMs verwendet, besitzt dies den zusätzlichen Vorteil, daß unter diesen Umständen die Ausgangsspitze die volle Intensität besitzt, wobei die zwei oben erörterten symmetrischen Spitzen in eine starke zentrale Spitze verschmelzen. Diese Tatsache kann als eine Hilfe für die Identifizierung und Verfol gung des Referenzobjektes verwendet werden, wobei sie die Tatsache ausnutzt, daß die Ausgangsspitze nicht aufgespalten wird, wenn der Ort des Szenen-Referenzobjektes mit dem der Referenz perfekt übereinstimmt. Selbstverständlich ist in dieser Behauptung die Tatsache implizit, daß das Referenzobjekt im Prozessor identifiziert wird. Ein Beispiel des Verfolgens eines Objekts könnte das Bewegen einer Kamera sein, um das Nummernschild eines sich bewegenden Autos zu verfolgen und dann eine Photographie dieses Nummernschildes aufzunehmen. Ein weiteres Beispiel könnte sein, einen Laser oder einen Bohrer auf ein sich bewegendes Werkstück ausgerichtet zu halten, bevor ein Loch in dem Werkstück erzeugt wird.
Es gibt eine weitere interessante Folge aus der Verwendung der Filter nur für die Phase, wenn die Szene durch ein Objekt beherrscht wird und perfekt mit dem Referenzobjekt übereinstimmt, so daß es eine perfekte phasenkonjugierte Beziehung zwischen den Fourier-Transformationen (nur der digitalisierten Phase) des Objekts und der Referenz gibt: unter diesen Umständen ist das den SLM verlassende Feld eine ebene Welle mit gleichförmiger Amplitude (vorausgesetzt, daß die Eingangsbeleuchtung gleichförmig ist), so daß das Ausgangssignal unabhängig von dem Objekt/der Referenz theoretisch eine Airy-Funktion ist. Dies kann nützlich sein, da sie im Gegensatz zur ACF eines allgemeinen Objekts/einer allgemeinen Referenz sehr niedrige Pegel der Nebenkeulen und eine feste Intensität besitzt. Falls der beleuchtende Laser ein Gaußsches Intensitätsprofil besitzt, wird das Ausgangssignal weiter geglättet. Dieses Gaußsche Profil könnte die Empfindlichkeit des Systems auf eine präzise Übereinstimmung zwischen Objekt und Referenz verringern, weil es zur Verwendung eines Filters äquivalent ist, das die Inhalte mit hohen Ortsfrequenzen des Ausgangssignals verringert.
Es kann deshalb erwünscht sein, ein räumliches Filter vorzusehen, insbesondere in Kombination mit einem digitalisierten System.
Das Chirp-Filter
Durch die Erkenntnis, daß unter bestimmten Umständen das Vorhandensein von zwei Korrelationsspitzen in der Ausgangsebene der Fourier-Transformationslinse nachteilig ist, wird vorgeschlagen, einen Chirp (einen nichtlinearen Phasenterm) in die Konstruktion der Referenz-Datensätze der Fourier-Transformation lediglich der binären Phase (der Referenzmuster) aufzunehmen. Ein Chirp steht mit einer Zonenplattenlinse in enger Beziehung. Es ist theoretisch und in Experimenten gezeigt worden, daß dies die Wirkung des Fokussierens der zwei Korrelationsspitzen in verschiedenen Ebenen längs der optischen Achse besitzt. Es ist außerdem gezeigt worden, daß ebenso die DC-Spitze im Ursprung in eine andere Ebene verschoben wird. Durch das Anordnen der Ausgangskamera in einer dieser Ebenen ist nur eine Spitze fokussiert. Dies erlaubt, daß in der Ausgangskamera die Größen der unerwünschten DC-Komponente und einer Spitze verringert sind. Das diesen unerwünschten Spitzen entsprechende Licht wird über die Ausgangsebene ausgebreitet. Dies ist in 6 gezeigt.
Das Chirp-Phasenmuster wird in einer Ausführungsform berechnet und zum Referenzphasenmuster hinzugefügt, bevor das resultierende Referenzmuster digitalisiert wird. Das resultierende kombinierte Spektrum aus den Referenz- und Eingangsmustern wird dann auf dem FBPSLM angezeigt und durch eine Linse optisch fourier-transformiert. Es kann gezeigt werden, daß, zurückzuführen auf den Chirp, die zwei erzeugten Korrelationsspitzen in Ebenen auf beiden Seiten der Brennebene der Linse in der z-Richtung in Entfernungen z' und z'' fokussiert sind. Es kann außerdem gezeigt werden, daß die Positionen der Korrelationsspitzen in der x-y-Ebene abhängig von der Größe des verwendeten Chirps skaliert sind.
7 und 8 zeigen experimentell aufgezeichnete Ergebnisse der durch die Referenzmuster mit bzw. ohne einen Chirp erzeugten Korrelationssignale. 7 wurde mit der in der Brennebene der Linse angeordneten Kamera aufgezeichnet, wenn kein Chirp angelegt war. 8 wurde aufgezeichnet, wenn ein Chirp angelegt war: die Kamera wurde in der z-Richtung verschoben, bis eine Korrelationsspitze in der Ebene z' fokussiert vor. 8 demonstriert erfolgreich, daß die zweite Korrelationsspitze und die DC-Komponente defokussiert sind.
Das Experiment hat gezeigt, daß, falls der Chirp als ein binäres Muster berechnet wird und dann zu einem binären Muster hinzugefügt wird, beide erzeugten Spitzen in der gleichen x-y-Ebene fokussiert sind. Dies ist deshalb für ein binäres Muster nicht notwendigerweise erwünscht, weil beide Spitzen fokussiert sein würden (obwohl die Defokussierung der Spitze im Ursprung eine vorteilhafte Wirkung ist).
Es ist vorstellbar, daß es möglich sein kann, den Chirp als eine externe Struktur für den SLM zu entwerfen, der entweder fest oder variabel ist.
Das Experiment hat gezeigt, daß für die Mustererkennung der Chirp im Idealfall hinzugefügt werden sollte, bevor das Muster digitalisiert wird, wobei er zu beiden Mustern oder nur zu einem der Muster hinzugefügt werden kann. Es ist wahrscheinlich zweckmäßiger, das Muster im voraus zu berechnen und es zum Referenzmuster hinzuzufügen. Es ist deshalb möglich, eine Menge von Mustern mit verschiedenen Chirps zu bilden, so daß der Chirp in Echtzeit zufällig aus einer Liste gewählt werden kann, oder sequentiell einen Abtastbrennpunkt in der z-Richtung zu erzeugen. Die Kombination mit einem linearen Chirp erlaubt, daß der Brennpunkt in drei Dimensionen in Echtzeit variiert wird. Die gegenwärtige Konstruktion des FBPSLM erlaubt z. B., daß das Chirp-Muster etwa zehntausendmal pro Sekunde geändert wird. Die Anwendungen könnten den Speicherzugriff auf optische Platten und holographischen Speicher ohne die Erfordernis für mechanisch bewegliche Teile enthalten.
In einigen Anwendungen kann ein variabler Chirp erforderlich sein, z. B. der Zeit/Frequenz-Analyse in der Wigner-Transformation oder der Mehrdeutigkeitsfunktion, in der ein unbekannter Chirp im Eingangssignal vorhanden sein kann. Der Zweck des Anwendens eines zusätzlichen Chirps besteht darin, einen Chirp zu finden, der den unbekannten Chirp aufhebt, um ein gewünschtes Signal wiederzugewinnen.
Der Chirp könnte außerdem durch einen SLM mit mehr als zwei Modulationspegeln (d. h. der nicht binär ist) verwendet werden. Dies würde den Vorteil besitzen, daß mehrere Modulationspegel nur eine Korrelationsspitze erzeugen, wobei der optische Durchsatz deshalb effizienter ist. Obwohl die Mehrdeutigkeit des Ortes des gesuchten Objekts beseitigt wird, in dem nur eine Korrelationsspitze vorhanden ist, gibt es immer noch ein durch das Vorhandensein einer DC-Spitze verursachtes Problem. Deshalb ist es trotzdem vorteilhaft, den Chirp zu verwenden, um die DC-Spitze zu defokussieren. Diese Eigenschaft ist, soweit bekannt, in der Literatur noch nicht erörtert worden.
Es sollte außerdem angemerkt werden, daß der Chirp eine zu einer Linse ähnliche mathematische Beschreibung besitzt, wobei es experimentell gezeigt worden ist, daß es nicht notwendig ist, eine Linse im Zusammenhang mit dem Chirp zu verwenden. Dies vereinfacht die Konstruktion des optischen Systems.
In der Praxis kann eine Chirp-Funktion einfach mit einem FFT-Muster multipliziert werden. Sie kann im voraus berechnet werden oder es kann sogar von einer "Nachschlage"-Tabelle auf sie zugegriffen werden. Alternativ könnte der Chirp durch Faltung auf das Signal angewendet werden.
Der räumliche Lichtmodulator
Um das Mustererkennungsschema zu implementieren, ist es wesentlich, einen räumliche Lichtmodulator zu schaffen, der das kombinierte Muster als eine phasencodierte räumliche Maske anzeigen kann.
Ein geeigneter binärer SLM ist als der schnelle räumliche Bitebenen-Lichtmodulator (FBPSLM) bekannt. Es können andere SLMs (die andere Silicium-Rückwandleiterplatten-Vorrichtungen enthalten), verwendet werden.
Der FBPSLM umfaßt eine Anordnung aus 320 × 240 Bildpunkten mit einem Füllfaktor von 65%. Dies erlaubt eine maximale Vollbildrate von 22,7 kHz, die für die Anzeige von mehr als zehntausend Mustern pro Sekunde ausreichend ist. Die Bildpunkte sind vom DRAM-Typ.
Im FBPSLM, wie in der Mehrzahl der SLMs, ist über jedem Bildpunkt ein elektrisches Feld angelegt. Für einen binären SLM besitzt jeder Bildpunkt zwei Modulationszustände. Für die Phasenmodulation entsprechen diese verschiedenen Verzögerungen.
Um die Dissoziation des Bildpunkt-Materials unter einem elektrischen Nettostrom zu vermeiden, sollte die Polarität der angelegten Spannungen im Idealfall variiert (z. B. abgewechselt) werden, so daß die durch das Bildpunkt-Material während der Zeit gesehenen Spannungen im wesentlichen gleichstromfrei null sind.
Im Stand der Technik ist der Zustand der Gleichstromsymmetrie erreicht worden, indem ein Muster angezeigt wird und dann das inverse Muster angezeigt wird, wobei beide Muster für die gleiche Zeitdauer angezeigt werden, d. h. es wird ein invertiertes Bild angezeigt, nachdem jedes Korrelations-/Faltungsbild angezeigt worden ist. Dies führt jedoch dazu, daß die Hälfte der Anzeigezeit des SLM redundant ist. Bei einer Mustererkennung, bei der die Geschwindigkeit wichtig ist, kann diese redundante Zeit eine Grenze der Gesamtzahl der Korrelationen der Referenz setzen, die in einer gegebenen Zeit ausgeführt werden können.
Um die Menge der redundante Zeit im SLM zu verringern (sowohl in dem in den 2 und 3 gezeigten Mustererkennungsschema als auch in jedem anderen System, das einen SLM enthält), wird vorgeschlagen, eine Liste von Mustern zu erzeugen, die auf dem SLM anzuzeigen ist. Die während der Zeit, wenn die Liste angezeigt wird, über jedem Bildpunkt angelegten Spannungen können dann sum miert werden. Ein einzelnes Muster kann dann aus dem Summenwert berechnet werden, wobei ein einzelnes Muster, das erforderlich ist, um eine Gleichstromsymmetrie zu erzeugen, auf dem SLM angezeigt werden kann. Die Muster in der Liste können so angezeigt werden, daß einige eine negative Spannung besitzen und einige eine positive Spannungen besitzen, um eine Nettospannung null zu approximieren. Sie können als abwechselnde positive oder negative Spannungsmuster angezeigt werden.
In dem Mustererkennungssystem kann die auf einen Bildpunkt für angenommen zwei, drei oder vier oder mehr Muster angelegte Spannung summiert werden. Es wird in Betracht gezogen, daß eine Liste von Mustern vielleicht Hunderte kombinierte Muster (kombinierte Szenenmuster und Referenzmuster) besitzen würde. Es wird in Betracht gezogen, daß eine Liste alle durch eine Referenzmuster-Menge für einen speziellen zu identifizierenden Gegenstand erzeugten kombinierten Muster umfaßt – d. h., die Liste könnte auf dem SLM angezeigt werden, wobei dann nach dem Anzeigen aller kombinierten Korrelationsmuster für einen speziellen vorgegebenen Artikel die Bildpunkte/das Material des SLM durch eine Vorspannung vorgespannt werden/wird, um die Nettowirkung der durch die Liste angelegten Spannungen zu kompensieren. Dann kann eine Abgleichsspannung berechnet und verwendet werden, um den Bildpunkt zu steuern. Das Abgleichsmuster muß nur einmal für jede Summation angelegt werden, es kann aber von langer Dauer und für jeden Bildpunkt verschieden sein – einige können in dieser Periode umgedreht werden müssen, d. h. auf negativ oder positiv. Dies ist in 19 der beigefügten Zeichnung gezeigt, wobei es in einem optischen Mustererkennungssystem enthalten ist, in dem ein kombiniertes Muster auf dem SLM anzuzeigen ist.
Der intelligente SLM kann obere und/oder untere Schwellen für die Lichtintensität besitzen und abhängig von der Intensität des einfallenden Lichts seine Wechselwirkung mit dem einfallenden Licht ändern. Der Wert dieser Schwellen kann vorzugsweise unabhängig durch einen Anwender geändert werden, z. B. unter Verwendung eines programmierbaren intelligenten SLM.
Es wird in Betracht gezogen, daß die Begrenzungsfunktion eines intelligenten SLM digital ausgeführt werden könnte, wobei lediglich Signale von einem Bildpunkt, die über einem vorgegebenen (möglicherweise variabel gesteuerten) Wert liegen würden, durch den Bildpunkt weitergeleitet werden würden.
Eine alternative Mustererkennungstechnik
In der Ausführungsform nach den 2 und 3 wird das Korrelationsmuster auf einer CCD-Kamera fokussiert. Wenn eine große Anzahl von Referenz-/Bildkonelationen für jedes aufgenommene Bild ausgeführt wird, wird eine beträchtliche Belastung auf die Geschwindigkeit der Ausgangskamera gelegt. Wenn z. B. vierhundert Referenzen pro aufgenommenem Bild koneliert werden und die Aufnahmekamera mit einer Videorate von angenommen fünfundzwanzig Vollbildern pro Sekunde betrieben wird, dann muß die Ausgangskamera zehntausend Muster pro Sekunde verarbeiten. Es wird in Betracht gezogen, daß die Ausgangskamera deshalb Grenzen an die maximale Anzahl der Referenzkorrelationen, die ausgeführt werden können, angelegt.
Unter gewissen Umständen, z. B. falls die Eingangskamera auf ein "Ziel" gezoomt ist, befindet es sich ziemlich zentral im Gesichtsfeld der Kamera, wobei die Korrelationsspitze eingeschränkt ist, damit sie sich in der Nähe des Zentrums des Ausgangsfeldes befindet, wie früher erörtert worden ist. Deshalb kann eine Ausgangskamera mit bescheidener Größe (z. B. 48 × 48 Bildpunkte) und einer hohen Vollbildrate, einige kHz, verwendet werden.
Um diesen potentiellen Engpaß zu beseitigen, ist ein alternatives optisches Schema entwickelt worden, wie in den 9(a) bis (c) veranschaulicht ist.
Wie in den 9(a) bis (c) gezeigt ist, ist die Laserlichtquelle durch eine VCSEL-Anordnung 100 ersetzt worden. Die CCD-Kamera ist durch eine lineare Ausgangsdetektoranordnung 101 ersetzt worden. Die VCSEL-Anordnung umfaßt eine lineare Anordnung von Laserdioden, wobei das Zentrum der Anordnung mit einer Achse übereinstimmt, die durch das Zentrum des SLM 102 und die Fokussierlinsen 104 und 105 (wo sie vorgesehen sind) geht. Die lineare Detektoranordnung ist außerdem um diese Achse zentriert, sie ist aber senkrecht zur VCSEL-Anordnung, wie in 16 gezeigt ist.
Um die Funktionalität des in 9 gezeigten Systems zu erkennen, wird angenommen, daß pro Sekunde einhundert Muster auf dem SLM erzeugt werden. Das auf eine CCD-Kamera fokussierte Bild (wie in 2) wird typischerweise 512 Zeilen aus 512 Bildpunkten umfassen. In einer modifizierten Kamera kann jede Zeile der Bildpunkte parallel ausgelesen werden, wobei alle 512 Zeilen in einem Hunderstel einer Sekunde gelesen werden. Dies könnte an sich eine nützliche Modifikation an einer CCD-Kamera sein, da alle 512 Zeilen parallel ausgelesen werden könnten. Jedes Ausgangssignal kann durch eine Schwellenschaltung geleitet werden, um eine Korrelationsspitze(n) zu erfassen, die dem Vorhandensein des Referenzobjekts in der Szene entspricht (entsprechen).
Das in 9 gezeigte System löst das Problem in einer anderen Weise, indem es die Lichtquelle so "bewegt", daß das zweidimensionale Ausgangsmuster schrittweise über eine lineare Anordnung bewegt wird.
Um zu einer CCD-Anordnung aus 512 × 512 Bildpunkten völlig gleiche Ergebnisse zu erhalten, könnte die VCSEL 512 Laserdioden umfassen, während die lineare Anordnung 512 Detektoranordnung umfassen könnte. Indem eine Laserdiode auf einmal eingeschaltet wird und alle 512 Dioden innerhalb der Zeit, in der ein einzelnes Muster auf dem SLM angezeigt wird, zyklisch durchlaufen werden, kann das ganze zweidimensionale Muster über der linearen Anordnung abgetastet werden.
In der Praxis kann es nicht zweckmäßig oder machbar sein, ein derartiges Schema zu implementieren, indem (angenommen) alle 512 Zeilen über einer einzelnen linearen Detektoranordnung schrittweise durchlaufen werden. Eine mögliche Lösung für diese Schwierigkeit besteht darin, eine relativ kleine Anzahl n derartiger linearer Anordnungen zu verwenden, wie schematisch in 9(c) gezeigt ist. In diesem Fall beträgt die Anzahl der erforderlichen VCSELs 512/n. In dem in 9(c) veranschaulichten Beispiel ist die Trennung der Ausgangsdetektoranordnungen H die gleiche wie die verringerte Ausdehnung der VCSEL-Anordnung, falls die Linsen völlig gleich sind. "n" kann 1, 2, 3, 4 oder mehr betragen.
In einer in 17 gezeigten Verfeinerung ist eine Anzahl von Zeilen aus Detektoren vorgesehen. Jede Zeile wird in abwechselnden Richtungen ausgelesen, d. h. die erste Zeile nach links, die zweite nach rechts, die dritte nach links usw.
Es wird angenommen, daß das VCSEL-Konzept mit einem wahren Vander-Lugt-Schema nicht funktionieren wird. Es ist jedoch für den Fachmann nicht schwierig, festzustellen, welche optischen Anordnungen mit der Idee des abgetasteten linearen Detektors funktionieren werden – die eine offenbarte funktioniert.
Der "intelligente" Modulator
Die Verwendung von diesem ist nicht auf die Korrelatoren eingeschränkt.
Eine mögliche Lösung für die Probleme des Hochgeschwindigkeitsauslesens der Korrelationsmuster ist als eine Alternative zu einer CCD-Kamera beschrieben worden. Für viele Anwendungen kann jedoch die Verwendung einer CCD-Kamera die beste Lösung sein. Wenn z. B. der genaue Maßstab/die genaue Orientierung einer Referenz in einer Szene unwichtig ist, könnte das Ausgangssignal aus der CCD einfach über die Zeit integriert werden, um die Korrelationsspitzen zu erfassen. Leider kann bei sehr hohen Geschwindigkeiten der Aufbau der Signale der Nebenkeulen und des Durcheinanders im Hintergrund die Korrelationsspitzen überdecken.
Um dieses Problem zu lösen, hat der Anmelder einen "intelligenten" räumlichen Lichtmodulator entwickelt, der beschaffen sein kann, um als ein nichtlineares Filter zu wirken, das in einer Betriebsart be schaffen sein kann, um nur starke optische Spitzen durchzulassen, die z. B. einer Korrelationsspitze entsprechen. Weil dies das Durcheinander im Hintergrund mit niedrigem Pegel beseitigen würde, wird die Abfrage des integrierten Ausgangssignals von einer CCD ein attraktiver Vorschlag. Dies gilt insbesondere, falls alle Referenzen um einen gemeinsamen Punkt zentriert sind, weil dann die Ausgangsspitze ungeachtet des Maßstabs oder der Orientierung der Referenz diesem Punkt entspricht.
Ein anderes Problem, das außerdem durch einen "intelligenten" SLM gelöst werden könnte, ist in 10 gezeigt. Eine entfernte Szene 200 wird durch den Betrachter durch eine Linse L 201 beobachtet, die ein Zwischenbild in der Ebene P1 nach 1 bildet. Ein heller Fleck B1 verursacht einen hellen Fleck B2 in dieser Zwischenebene, wobei er einen hellen Fleck B3 auf der Netzhaut 103 des Betrachters verursacht.
Der helle Fleck B3 kann den Betrachter blenden oder die Netzhaut schädigen oder die thermische Defokussierung in einer Kamera (oder die Überbelichtung mit einer herkömmlichen Kamera mit einem Film) verursachen. Der vorgeschlagene "intelligente" SLM wird die Intensität des hellen Flecks B3 begrenzen.
Ein einfacher "intelligenter" SLM ist in 11 gezeigt. Er umfaßt ein rechteckiges zweidimensionales Substrat 300, daß eine Anordnung völlig gleicher Elemente trägt, in die alle durch eine gemeinsame Quelle (d. h. eine Batterie) durch eine auf dem Substrat vorgesehene leitende Elektrodenstruktur gespeist werden. Die Elektrodenstruktur könnte metallisch sein oder aus einem optisch transparenten Leiter, wie z. B. Indiumzinnoxid (ITO), gebildet sein. Im in 11 gezeigten SLM nehmen der Detektor 301, ein (nicht gezeigter) zugeordneter Verstärker, ein (nicht gezeigter) Komparator und ein Transistor (der ebenfalls nicht gezeigt ist – und in einigen Ausführungsformen nicht vorhanden ist) einen kleinen Bereich ein, der von einem größeren durchlässigen Bereich des Flüssigkristall-Bildpunktes 302 getrennt ist. Durch diese Konstruktion geht das meiste des Lichtes durch den SLM-Bildpunkt, wenn der Flüssigkristall durch den einen Transistor mit einem elektrischen Potential verbunden ist. Falls eine Spannung angelegt wird, ändert sich der Kristall, um das Licht zu dämpfen. (In dieser Version ist der SLM als eine Amplitudenvorrichtung und nicht als eine Phasenvorrichtung konfiguriert, wobei er kein Flüssigkristall sein muß.)
Es ist außerdem möglich, eine derartige Vorrichtung so arbeiten zu lassen, daß sie direkt den Detektor bildet, der mit einem Widerstand R in Reihe geschaltet ist. Die Spannung über R ist V = iR, wobei i = der Strom ist, der zur optischen Intensität proportional ist. Diese Spannung wird über dem Modulator angelegt, z. B. über dem Flüssigkristall.
Der SLM nach 11 arbeitet wie folgt. Das auf den Detektor 301 einfallende Licht erzeugt einen kleinen Photostrom. Dieser wird durch den Verstärker verstärkt und in einen Eingang eines Komparators eingespeist. Der andere Eingang des Komparators ist mit einer Referenzspannung verbunden. Wenn ausreichend Licht auf den Detektor einfällt, um ein Eingangssignal in den Komparator zu erzeugen, das größer als die Referenz ist, löst der Komparatorausgang aus, was wiederum den Transistor betätigt, um den zugeordneten Flüssigkristall-Bildpunkt 302 zu schalten. Folglich wird leicht eingesehen, daß durch das Wählen einer geeigneten Referenzspan nung abhängig von der Detektorempfindlichkeit und der Verstärkung des Verstärkers der Bildpunkt veranlaßt werden kann, bei einer vorgegebenen Intensität des einfallende Lichtes zu schalten.
Der in 11 gezeigte einfache SLM blockiert alles Licht über einer bestimmten Schwellenintensität (in der Tat ist es schwierig, das Licht vollständig zu blockieren, wobei es streng bis zu einem eingestellten Grad gedämpft wird – d. h., der Bildpunkt ist entweder "farblos" oder "dunkel").
Um die Lichtintensität zu begrenzen anstatt das Licht abzuschneiden, falls es die Schwelle überschreitet, ist der alternative Modulator, der in 12 gezeigt ist, erfunden worden. In dieser Anordnung befindet sich das erfassende Element hinter seinem zugeordneten Bildpunkt anstatt auf einer Seite. In diesem Fall wird ein heller Fleck nicht vollständig ausgelöscht, sondern er wird auf einen Schwellenpegel begrenzt, was selbstkonsistent ist. Diese Anordnung würde z. B. für den Augenschutz oder für die Verwendung mit einer Kamera bevorzugt sein.
Ein alternativer intelligenter SLM ist in 21 gezeigt. In dieser Anordnung steuert ein Detektor 301 eine Menge aus vier benachbarten Bildpunkten des modulierenden Mediums 302.
Die Verbindungen mit dem Komparator könnten vertauscht werden (oder die Operation des Transistors könnte umgekehrt werden), damit er für die Verwendung im Mustererkennungsschema als eine Vorrichtung zum Beseitigen von falschen Hintergrundsignalen geeignet ist, oder es könnte irgendeine andere Modifikation ausgeführt werden, so daß die Bildpunkte das Licht ausblenden, bis das Licht auf dem Detektor den Schwellenpegel überschreitet. Dies kann erlauben, daß die Integration der begrenzten Signale machbar ist, weil nur die starken Korrelationsspitzen zur Ausgangskamera durchgelassen werden.
In einem allgemeineren Fall könnte der Ausgang des Detektors mit irgendeiner Logikschaltung verbunden sein, um den Betrieb jedes Bildpunktes zu steuern. Ein Detektor und die zugeordnete Schaltung könnten mehr als einem Bildpunkt zugeordnet sein. Die Erfassung könnte z. B. im Zentrum einer 2 × 2-Anordnung von Bildpunkten im SLM vorgesehen sein.
Es wird in Betracht gezogen, daß ein "intelligenter" räumlicher Lichtmodulator in einer Anzahl von Arten in einem Korrelationssystem enthalten sein kann.
Zuerst wird in Betracht gezogen, daß ein intelligenter SLM, der beschaffen ist, um Abschnitte mit hoher Intensität der Bildszene zu dämpfen, vor (oder in einer Zwischenbildebene vor) einer Eingangskamera vorgesehen sein könnte, die beschaffen ist, um das Szenenbild aufzunehmen. Dies könnte z. B. verhindern, daß eine helle Sonne oder helles Licht verursacht, daß die Kamera thermisch defokussiert oder ein Film überbelichtet wird. Das Sonnenlicht könnte vollständig blockiert werden oder nur bevorzugter auf eine niedrigere Intensität gedämpft werden. Das intelligente SLM-Filter könnte in die Kamera oder eine Linseneinheit eingebaut sein oder es könnte eine Zusatzfiltereinheit sein, die an der Kamera angebracht ist oder ihr in irgendeiner anderen Weise zugeordnet ist.
Ein ähnlicher "intelligenter" SLM könnte außerdem im optischen Korrelator nach dem SLM, der verwendet wird, um die kombinierten Muster oder die kombinierten Chirp-Muster anzuzeigen, aber vor einer Ausgangskamera enthalten sein. In diesem Fall könnte sich, falls das kombinierte Signal einen Chirp enthält, um eine der Korrelationsspitzen in einem binären System zu defokussieren, eine Kamera in der vom SLM fernsten Ebene befinden, die eine Korrelationsspitze enthält. Ein intelligenter SLM könnte sich dann in einer Zwischenebene befinden, die die andere Korrelationsspitze enthält. Der intelligente SLM könnte die unerwünschten Spitzen in dieser Ebene dämpfen, um die Unterscheidung zu verbessern. Eine ähnliche Anordnung könnte verwendet werden, um die DC-Spitze zu beseitigen, in dem ein intelligenter SLM in die Ebene gesetzt wird, die die DC-Spitze enthält. Diese Ideen könnten eine unabhängige Erfindung sein. Die Vorrichtung würde ein programmierbares, die Unterscheidung änderndes Filter besitzen.
Ein alternativer intelligenter SLM, der das Licht unter einer Schwellenintensität entfernt (oder wenigstens dämpft), während er das Licht mit einer Intensität über der Schwelle durchläßt (oder reflektiert, falls es eine Reflexionsvorrichtung ist), könnte vor die Ausgangskamera gesetzt sein. Dies könnte einen Teil der Ausgangskamera selbst bilden. Dies würde beschaffen sein, um das Durcheinander im Hintergrund zu beseitigen. In einem derartigen Fall könnte das Ausgangssignal der Ausgangskamera über eine Anzahl kombinierter Muster integriert werden. Falls eine Ausgangsspannung über einem vorgegebenen Pegel erzeugt wird, kann angenommen werden, daß die Referenz von der Referenzmuster-Menge, die verwendet worden ist, um die kombinierten Muster zu erzeugen, vorhanden war. Falls notwendig, würde es dann möglich sein, abermals ohne Integration einer Anzahl von Mustern die identifizierte Referenzmenge zu durch laufen, um zu identifizieren, welches der Muster der Referenzmenge der Muster mit der Szene gleichgesetzt worden ist, wobei möglicherweise außerdem die Muster auf irgendeiner Anzeige, die verwendet werden kann (falls eine Anzeige verwendet wird) zentriert werden. Es kann jedoch nur notwendig sein, zu wissen, daß es eine Referenz gibt, und nicht ihren Maßstab und ihre Orientierung zu kennen, wobei in diesem Fall keine zweite Vergleichsoperation mit der Referenz notwendig sein würde.
In einem System werden die Referenzmuster in Listen von Mustern unterteilt. Die Listen können aus einer Hauptliste und Unterlisten bestehen. Die Hauptliste kann wenigstens eine repräsentative Referenz aus jeder Unterliste enthalten. Jede Unterliste kann z. B. verschiedene Ansichten eines speziellen Autos umfassen, wobei die Hauptliste eine Ansicht jedes Typs des Autos umfaßt. Sobald eine Korrelation unter Verwendung der Hauptliste identifiziert worden ist, um zu sagen, daß ein Auto (irgendeiner Art) vorhanden ist, könnten die Unterlisten der Reihe nach verwendet werden, um die spezifische Ansicht des Autos deutlicher zu identifizieren. Dies könnte sich als zeiteffizienter beim Identifizieren des Vorhandenseins einer Referenz als das Durchlaufen aller Referenzmuster erweisen. Um genau zu identifizieren, welche Referenz die Korrelationsspitze erzeugt hat, können die kombinierten Muster auf dem SLM der Reihe nach angezeigt werden, wobei das Vorhandensein einer Korrelationsspitze sorgfältig überwacht wird. Dies ist in 19 graphisch gezeigt.
Die Referenzmuster könnten sowohl in dieser letzten Idee als auch in früheren Erörterungen synthetische Diskriminantenfunktionen sein.
Ein alternatives Verfahren des Betriebs des hierin beschriebenen Mustererkennungssystems ist außerdem entwickelt worden. Dies ist besonders nützlich, wenn das gesuchte Objekt identifiziert werden muß, d. h. von sehr ähnlichen Objekten unterschieden werden muß. Es ist eine Lichtquelle vorgesehen, die beschaffen ist, um die Szene mit einer Folge von Lichtbündeln kurzer Dauer zu beleuchten. Selbstverständlich könnten andere Wellenlängen als optische Wellenlängen verwendet werden, vorausgesetzt, die Aufnahmekamera ist kompatibel (oder in der Tat ein anderer Ausbreitungsmechanismus für die Signalübertragung als der Elektromagnetismus). Dieses Verfahren ist in 18 für eine typische Szene gezeigt.
In einem ersten Schritt wird ein kurzer Strahlungsimpuls emittiert. Der Impuls kann in der Größenordnung von 1 Nanosekunde liegen, dies gibt eine räumliche Ausdehnung von angenommen 30 cm für einen Impuls mit einer sichtbaren Wellenlänge. Das reflektierte optische Feld wird dann durch einen Impulsbildverstärker geleitet und in einer Kamera aufgezeichnet. Das durch die Kamera aufgezeichnet aufgenommene Bild wird dann verarbeitet, um ein erstes Szenenmuster zu bilden, wie in der Ausführungsform nach den 2 und 3 gezeigt ist, und mit einer oder mehreren Referenzen verglichen. Dies wird dann für einen zweiten Impuls wiederholt, der erfaßt werden kann, wobei die verstrichene Zeit berücksichtigt wird, die größer als die ist, zu der das erste aufgenommene Bild protokolliert wird.
Eine alternative Version besteht darin, einen ersten Impuls auszusenden und die Rückkehrzeit zu messen, um den Bereich zu erhalten – sie wirkt dann in einer Entfernungsmesser-Betriebsart. Es ist dann möglich, eine Folge von Reichweiten um diesen Mittelwert auszuführen.
Durch das Variieren der Verzögerungszeit zwischen dem Senden des Impulses und dem Aufnehmen des zurückgeschickten Signals kann eine Form eines dreidimensionalen Bildes der Szenerie konstruiert werden. Jede "Schicht" des Bildes kann mit einem oder mehreren Referenzbildern korreliert sein. Dies ermöglicht außerdem, daß ein Objekt in einer Szene, das ansonsten durch das Durcheinander im Hintergrund verborgen werden würde, identifiziert wird. Die räumliche Auflösung wird in der Praxis durch die Länge des emittierten Impulses als die Länge der Zeit, für die der Verstärker arbeitet, beherrscht. Wie in 18 gezeigt ist, können unerwünschte Reflexionen von geparkten Autos und Büschen beseitigt werden. Dies ist außer der Möglichkeit der dreidimensionalen Abbildung ein anderer Vorteil.
Weitere Verfeinerungen
Ein weiteres vorteilhaftes Merkmal der neuen hybriden digitalen/optischen Mustererkennungsvorrichtung ist, daß es möglich ist, mehr als ein Maskenmuster auf dem SLM "zu fliesen", um mehrere entsprechende Korrelationsmuster in der Ausgangsebene der Fokussierlinse zu erzeugen. Dies ist möglich, weil es nicht notwendig ist, die DC-Frequenz des Musters auf der optischen Achse zu besitzen (wie in einer klassischen Vander-Lugt-Korrelation).
In einem klassischen optischen Korrelator, wie in 1 gezeigt ist, ist eine definierte optische Achse vorhanden. Wenn die Bildszene durch die erste Linse fourier-transformiert wird, sind alle Ortsfrequenzen um die Achse zentriert. Das Referenzmuster, das in die Fourier-Transformationsebene gelegt werden muß, muß ähnlich auf diese Achse ausgerichtet sein.
Unter Verwendung der digitalen Fourier-Transformationstechniken, um die erste Stufe der Daten zu verarbeiten, besitzen die Ortsfrequenzen keine definierte Reihenfolge. Dies erlaubte dem SLM, angenommen vier oder mehr Muster gleichzeitig anzuzeigen. Diese können z. B. in vier Quadranten gefliest sein, wie in den 13(a) bis (c) gezeigt ist. Dies besitzt eine Anzahl einzelner Vorteile.
Zuerst könnten die auf dem SLM angezeigten Ortsfrequenzen gemäß 13 irgendeiner Reihenfolge angeordnet sein (im Unterschied zum Vorhandensein einer Anforderung, daß die Ortsfrequenzen entfernt von der optischen Achse sorgfältig geordnet sein müssen – das gleiche kombinierte Muster kann auf verschiedene Bereiche des SLM abgebildet werden und trotzdem richtig arbeiten). Zweitens kann die Korrelationsrate vergrößert werden, wenn die Anzahl der gefliesten Muster zunimmt. Jede Fliese erzeugt ihr eigenes Korrelationsmuster, wenn sie fourier-transformiert wird, wobei einer oder mehrerer Detektoren (wie z. B. CCDs) parallel an den Mustern arbeiten könnten.
Die Verwendung der gefliesten Muster würde außerdem erlauben, daß auf ein einzelnes kombiniertes Muster parallel verschiedene Chirp-Muster angewendet werden. Dies kann erwünscht sein, um die Korrelationsbereiche zu trennen und Nebensprechen zu vermeiden. Außerdem könnte ein Multispektralbild aufgenommen werden (angenommen rote, grüne und blaue Farben), die parallel verarbeitet werden können, wobei jede Fliese z. B. einer Farbe entspricht.
Eine noch weitere Modifikation ist in 14 gezeigt. In dieser Anord nung ist die Mustererkennungsvorrichtung 500 in zwei Abschnitte aufgespalten. Ein Abschnitt 501 umfaßt eine optische Eingabevorrichtung 502, die über ein optisches Kabel 503 mit einem Computer 504 oder einer anderen elektronischen Vorrichtung verbunden ist. Die optische Eingabevorrichtung empfängt die aufgenommenen Eingangsdaten, die sie über das optische Kabel überträgt.
Der Computer, der in diesem Beispiel batteriebetrieben ist und in einer selbständigen Einheit vorgesehen ist, erzeugt die Szenenbilder und die Szenenmuster und überträgt sie über eine zweite optische Faser 505 zu einer Basiseinheit 506. Diese enthält die digitale Signalverarbeitungsschaltung, die notwendig ist, um die Fourier-Transformationen auszuführen. Sie enthält außerdem einen räumlichen Lichtmodulator und optische Linsen (wo sie vorgesehen sind).
Ein Vorteil dieser Anordnung ist, daß sich die optischen Eingabevorrichtungen bis zu einigen zehn Kilometern entfernt von der Elektronik befinden können. Die optische Faser ist vor elektromagnetischen Störungen geschützt und kann auf diese Weise ermöglichen, daß die aufgenommenen Eingangsdaten in elektromagnetisch verrauschten Umgebungen erhalten werden.
Indem die relativ preiswerte optische Eingabevorrichtung und der relativ preiswerte Computer von dem teuren Modulator und der teuren digitalen Signalverarbeitungs-Hardware getrennt werden, werden sie außerdem einzeln weniger teuer und kleiner. Die Signale können von mehreren Eingabevorrichtungen (optische oder nicht) in einen gemeinsamen Korrelator eingegeben werden, der sie der Reihe nach oder gleichzeitig analysieren kann.
Es ist leicht selbstverständlich, daß die vorliegende Erfindung, wenn sie in der einen Art betrachtet wird, einen hybriden digitalen/optischen Korrelator umfaßt. Es sind viele vorteilhafte Merkmale offenbart worden, wobei viele von diesen Anwendungen besitzen, die viel umfassender als das Gebiet der Mustererkennung sind. Viele der offenbarten Vorrichtungen und Verfahren werden z. B. in anderen Gebieten umfangreichere Anwendungen finden, während sie hauptsächlich als Teil eines vollständigen Mustererkennungssystems entwickelt worden sind. Es kann für jedes neuartige einzelne Merkmal selbständig Schutz gesucht werden.
Es ist außerdem selbstverständlich, daß beabsichtigt ist, daß der Ausdruck "Fourier-Transformation" verschiedene Typen von Transformationen enthält, einschließlich Sinus-, Kosinus-, Hartley-, Wavelet-Transformationen usw. Während jede Transformation ein wenig andere Eigenschaften besitzt, können sie alle digital implementiert sein, um die gleichen Muster, Referenzmuster und kombinierten Muster zu definieren, die in der offenbarten Mustererkennungsvorrichtung verwendet werden.
Diese Anwendung hat das Ausführen der Erfindung mit "Licht" erörtert. Die Erfindung kann selbstverständlich mit optischem Licht oder elektromagnetischer Strahlung irgendeiner Wellenlänge und den nmr-Abbildungen (mri-Abbildungen) ausgeführt werden. In der Tat sind die medizinische Abbildung/medizinischen Anwendungen ein Gebiet mit großem Potential für die Erfindungen – das Steuern der Ausrichtung und/oder der Bewegung eines medizinischen Lasers bezüglich bekannter Körperstrukturen, möglicherweise automatisch oder entfernt, wobei z. B. dem Laser nur erlaubt wird, zu arbeiten, wenn eine richtige Musterübereinstimmung gefunden worden ist (er richtig ausgerichtet ist), kann eine Anwendung sein.
Es ist außerdem möglich, die Erfindung in nicht mit elektromagnetischen Wellen übermittelten Szenen zu verwenden, z. B. mit Schall oder Ultraschall, oder mit einer anderen Druckwellen-Energieübertragung. Folglich sollte der Leser "Licht" interpretieren, daß es all das Obige abdeckt, wobei vielleicht "die Informationen übertragende Ausbreitungseinrichtung" ein geeigneter umfassenderer Begriff sein würde. Wie früher erwähnt worden ist, muß die "Szene" nicht einen physikalischen Gegenstand oder ein Bild repräsentieren.
Es folgen nun der Anhang 1, der ein Glossar der Begriffe ist, und der Anhang 2, der eine Liste der Literaturhinweise ist, auf die der Leser hierdurch gelenkt wird, sie zu lesen, bevor er diese Patentanmeldung auslegt.
ANHANG 1
BEGRIFFE UND VEREINFACHUNGEN, DIE IN DIESER PATENTAN MELDUNG VERWENDET WERDEN
Die Mustererkennung ist ein Begriff, der verwendet wird, um den Prozeß des Identifizierens des Vorhandenseins eines Referenzobjektes in einer Szene zu beschreiben.
Das Szenenbild und das Referenzobjekt können reale Gegenstände sein, wie z. B. Autos (Objekte) in einer Schlange (Szene), oder sie können abstrakte Größen sein, wie z. B. Anordnungen von Daten oder sogar eine Kette von Daten. Für die Einfachheit werden sie immer als Szenenbild und Referenzobjekt bezeichnet.
Die synthetischen Diskriminantenfunktionen sind effektive Kombinationen der Referenzdaten, z. B. eine Kombination eines Autos seitlich und frontal. Sie werden verwendet, um die Anzahl der Refe- renzen zu verringern, die notwendig ist, um das Vorhandensein eines Objekts in einer Szene zu identifizieren.
Der Text bezieht sich oft auf Optik-Elektronik-Umsetzer – diese sind typischerweise Kameras oder Detektoranordnungen.
Der Text bezieht sich oft auf Elektronik-Optik-Umsetzer – diese beziehen sich normalerweise auf die Verwendung von SLMs, räumlichen Lichtmodulatoren. Die als Beispiele im Text beschriebenen SLMs sind ausnahmslos in Bildpunkte aufgelöste Vorrichtungen, d. h. sie umfassen Anordnungen einzelner modulierender Elemente. Es gibt viele Typen des SLM. Die häufigsten Vorrichtungen verwen den Flüssigkristalle oder mikrobearbeitete Elemente als Lichtmodulationsmittel.
Die SLMs können in vielen Arten arbeiten, z. B. in Transmission oder in Reflexion. Im Text sollte für die Einfachheit immer auf SLMs Bezug genommen werden, die in Transmission arbeiten. Es ist selbstverständlich, daß SLMs, die in Reflexion arbeiten, außerdem in ein wenig modifizierten Konfigurationen verwendet werden können, und daß der Schutz für diese beabsichtigt ist.
Die auf den SLMs angezeigten Muster werden als Masken bezeichnet.
In den beschriebenen Systemen bildet oft eine Linse die Fourier-Transformation des Maskenmusters, das Ausgangssignal wird in der hinteren Brennebene der Linse überwacht. Diese bildet das Ausgangssignal (Ausgangsmuster) des Korrelators. Trotzdem wird oft auf dieses als Fokussierung Bezug genommen, weil im Korrelationsprozeß, wenn das gesuchte Referenzobjekt in der Szene vorhanden ist, das Licht fokussiert wird, um eine Korrelationsspitze in der Ausgangsbrennebene zu bilden.
Im Idealfall gibt es eine Unterscheidung zwischen den Fourier-Transformationen und den inversen Fourier-Transformationen, der Unterschied ist aber ohne praktische Bedeutung, wobei alle derartige Transformationen hier als Fourier-Transformationen beschrieben sind. Ähnlich wird der Begriff Fourier-Transformation verwendet, um eng verwandte Transformationen, wie z. B. die Kosinus-Transformationen, abzudecken.
Der Prozeß der Korrelation zwischen den Referenzobjekten und der Szene kann im Ortsfrequenzbereich ausgeführt werden. Der erste Schritt in diesem Prozeß ist, die Fourier-Transformation von einem mit dem komplex Konjugierten der Fourier-Transformation des anderen zu multiplizieren. (Der zweite Schritt ist, eine inverse Fourier-Transformation des Produkts zu nehmen.) Im Fall der Daten lediglich der Phase ist der erste Schritt nur notwendig, um die Differenz der Phasen zu berechnen. In diesem Fall der digitalisierten Daten lediglich der Phase wird dies am leichtesten durch eine XOR-Logikoperation ausgeführt. Im Text sollte "kombiniert" in diesem Sinn verstanden werden.
Die im Text beschriebenen Muster werden aus den Fourier-Transformationen des Objekts oder der Szene erzeugt.
Der Ort eines Objekts in einer Szene ist durch die Koordinaten (x, y) definiert.
Eine Chirp-Signalform ist eine analoge Signalform mit konstanter Amplitude und sich linear verändernder Frequenz. Eine zweidimensionale binäre optische Approximation für diese ist eine Phasenumkehr-Zonenplattenlinse. Die Einfachheit wird im Text dieses als eine Zonenplattenlinse bezeichnet.
In vielen beanspruchten Strukturen ist eine Zonenplattenlinse enthalten, oft im Zusammenhang mit einer herkömmlichen Glaslinse. Wenn es in den Beschreibungen des Betriebs nicht spezifisch erwähnt ist, kann angenommen werden, daß diese Zonenplattenlinse fehlt. In diesem Fall wird das Ausgangssignal des Korrelators ausnahmslos in der hinteren Brennebene der realen Glaslinse genommen.
Es wird oft auf einen "intelligenten" SLM Bezug genommen. Dies sollte als eine Vorrichtung verstanden werden, in der die Intensität des durchgelassen (oder reflektierten) Lichts durch die Intensität des einfallenden Lichts durch die Vermittlung einer angelegten Spannung bestimmt wird. Diese Spannung kann an Bildpunkte angelegt werden, die den einzelnen Lichtdetektoren benachbart sind.
ANHANG 2
Literaturhinweise

1. J. W. Goodman, "Introduction to Fourier Optics", McGraw-Hill Companies Inc., Zweite Auflage, S. 9, (1996).
2. A. Vander Lugt, "Signal detection by complex spatial filtering", IEEE Trans. Inf. Theory, IT-10, S. 139–145, (1964).
3. J. W. Goodman, "Introduction to Fourier Optics" McGraw-Hill Companies Inc., Zweite Auflage, S. 237, (1996).
4. A. J. Seeds, "Quantum wells and lasers: novel applications in opto-electronic systems", Fifth Opto-electronics Conference (OEC'94) Technical Digest, S. 448–449, (1994).
5. J. L. Homer, P. D. Gianino, "Phase-only matched filtering", Appl. Opt. 23, S. 812–816, (1984).
6. D. Psaltis, E. G. Paek, S. S. Venkatesh, "Optical image correlation with a binary spatial light modulator", Opt. Eng 23, S. 698–704, (1994).
7. W. A. Crossland, T. D. Wilkinson, T. M. Coker, T. C. B. Yu, M. Stanley, "The Fast Bit Plane SLM: A new ferro-electric liquid crystal on silicon spatial light modulator designed for high yield and low cost manufacturability" OSA TOPS 14 (Spatial Light Modulators), S. 102–106, (1997).
8. W. A. Crossland, T. D. Wilkinson, T. M. Coker, A. B. Davey, T. C. B. Yu, "Ferroelectric liquid Crystal on silicon spatial light modulator designed for high yield and low cost fabrication: The Fast Bit Plane SLM", Ferroelectircs 213, S. 219–223, (1988).
9. S. Vallmitjana, S. Bosch, I. Juvells, D. Ros, "New multiple matched filter: design and experimental realisation", Appl. Opt. 25, S. 4473–4475, (1986).
10. M. A. A. Neil, E. G. S. Paige, "Breaking of inversion symmetry in 2-level, binary, Fourier holograms", Proc. Holographic Systems, Devices and Applications, Neuchatel, (1993).
11. G. Y. Yates, R. A. Gallegos, T. E. McDonald, F. J. Zutavern, W. D. Helgesen, G. M. Loubriel, "Range-gated imaging for near-field target identification", Proc. SPE 2869, S. 374–385, (1997).
12. J. L. de Bougrenet de a Tocnaye, E. Quemener, Y. Petillot, "Composite versus multichannel binary phase-only filtering", Appl. Opt. 36, S. 6646–6653, (1997).
13. B. J. Pernick, "Phase-only and binary phase-only spatial filters for optical correlators: a survey", Opt. & Laser Technol. 23, S. 273–282, (1991).
14. W. A. Crossland, M. J. Birch, A. B. Davey, and D. G. Vass, "Ferroelectirc liquid crystal/silicon VCSI backplane technology for smart spatial light modulators", IEE Colloquium on "Two dimensional optoectronic device arrays", Oktober (1991).

Claims

Vorrichtung für die Erfassung des Vorhandenseins eines oder mehrerer Bilder einer bekannten, vorgegebenen Art in einer Szene, mit: Mitteln, die so beschaffen sind, daß sie ein einer Szene entsprechendes Szenenbild erzeugen; einem digitalen Eingabemittel, das umfaßt: erste elektronische Verarbeitungsmittel, die so beschaffen sind, daß sie wenigstens einen Teil des Szenenbildes verarbeiten, um ein der Fourier-Transformation wenigstens eines Teils des Szenenbildes entsprechendes Szenenmuster zu erzeugen, Speichermittel, die so beschaffen sind, daß sie eines oder mehrere Referenzmuster speichern, wobei jedes Referenzmuster die Fourier-Transformation eines entsprechenden Referenzbildes enthält, und zweite Verarbeitungsmittel, die so beschaffen sind, daß sie das Szenenmuster mit einem Referenzmuster elektronisch kombinieren, um ein kombiniertes Muster zu erzeugen; und einem optischen Ausgabemittel, das so beschaffen ist, daß es einen optischen Ausgang erzeugt, der aus dem kombinierten Muster abgeleitet ist, dadurch gekennzeichnet, daß die Vorrichtung umfaßt: wenigstens zwei lichtemittierende Vorrichtungen, wovon jede in bezug auf eine optische Achse der Vorrichtung an einer anderen Position beabstandet ist; einen Controller, der so beschaffen ist, daß er die Beleuchtung jeder Vorrichtung sequentiell steuert; und einen räumlichen Lichtmodulator, der die optischen Ausgabemittel enthält und so beschaffen ist, daß er das kombinierte Muster anzeigt, und zwischen den lichtemittierenden Vorrichtungen und einem Ausgangsdetektor vorgesehen ist, der so beschaffen ist, daß er Licht empfängt, das durch den räumlichen Lichtmodulator moduliert worden ist.
Vorrichtung nach Anspruch 1, in der ein optisches Element mit Fokussierungsvermögen zwischen den lichtemittierenden Vorrichtungen und dem Detektor vorgesehen ist.
Vorrichtung nach Anspruch 2, in der das optische Element eine Linse oder ein Spiegel ist.
Vorrichtung nach Anspruch 2 oder Anspruch 3, in der das optische Element zwischen dem räumlichen Lichtmodulator und dem Detektor vorgesehen ist.
Vorrichtung nach einem der Ansprüche 2 bis 4, in der ein weiteres optisches Element vorgesehen ist, wobei eines der optischen Elemente zwischen den lichtemittierenden Vorrichtungen und dem räumlichen Lichtmodulator vorgesehen ist und das andere der optischen Elemente zwischen dem räumlichen Lichtmodulator und dem Detektor vorgesehen ist.
Vorrichtung nach einem vorhergehenden Anspruch, in der die Detektoranordnung wenigstens eine Detektorzeile umfaßt.
Vorrichtung nach einem vorhergehenden Anspruch, in der eine Detektoranordnung mit einer Längsrichtung vorhanden ist und in der die lichtemittierenden Vorrichtungen in einer Zeile angeordnet sind, die sich im wesentlichen senkrecht zu der Längsrichtung der Detektoranordnung erstreckt.
Vorrichtung nach einem vorhergehenden Anspruch, in der eine Anordnung aus lichtemittierenden Vorrichtungen im wesentlichen senkrecht zu der optischen Achse ausgerichtet ist, die durch das Zentrum des räumlichen Lichtmodulators vorläuft.
Vorrichtung nach einem vorhergehenden Anspruch, in der zwischen den lichtemittierenden Vorrichtungen und dem räumlichen Lichtmodulator eine Kollimatorlinse vorgesehen ist.
Vorrichtung nach einem vorhergehenden Anspruch, in der zwischen den lichtemittierenden Vorrichtungen und dem räumlichen Lichtmodulator ein Polarisator vorgesehen ist.
Vorrichtung nach einem vorhergehenden Anspruch, in der der Polarisator einen Teil des räumlichen Lichtmodulators bildet.
Vorrichtung nach einem vorhergehenden Anspruch, in der die lichtemittierenden Vorrichtungen eine Vorrichtung aus der folgenden Liste umfassen: Laser und Laserdioden.
Vorrichtung nach einem vorhergehenden Anspruch, die so beschaffen ist, daß im Gebrauch zu einem Zeitpunkt nur eine lichtemittierende Vorrichtung einen Lichtstrahl aussendet.
Vorrichtung nach einem vorhergehenden Anspruch, in der die Anordnung von Vorrichtungen eine VCSEL-Vorrichtung umfaßt.
Vorrichtung nach einem vorhergehenden Anspruch, in der der Detektor eine Anordnung aus Detektorelementen umfaßt.
Vorrichtung nach einem vorhergehenden Anspruch, in der der Detektor eine lineare Anordnung aus einer oder aus mehreren Detektorelement-Zeilen umfaßt.
Vorrichtung nach einem vorhergehenden Anspruch, in der eine lineare Anordnung aus lichtemittierenden Vorrichtungen und eine lineare Ausgabedetektoranordnung vorhanden sind und in der die Anordnungen gekreuzt sind, so daß im Gebrauch Licht von den lichtemittierenden Vorrichtungen der Anordnung aus lichtemittierenden Vorrichtungen den räumlichen Lichtmodulator überstreichen und eine äquivalente Reihe optischer Ausgänge, die über den Ausgangsdetektor gehen, erzeugen kann.
Vorrichtung nach einem vorhergehenden Anspruch, in der der räumliche Lichtmodulator aus der folgenden Liste ausgewählt ist: lichtdurchlässige Vorrichtung und reflektierende Vorrichtung.
Vorrichtung nach einem vorhergehenden Anspruch, in der der räumliche Lichtmodulator eine binäre Vorrichtung ist.
Vorrichtung nach einem vorhergehenden Anspruch, in der vor der Detektoranordnung eine Schwellenwertbildungsvorrichtung vorgesehen ist, wobei die Schwellenwertbildungsvorrichtung dem Licht ermöglicht, den Detektor oder die Detektoranordnung zu erreichen, falls die Lichtintensität über einem vorgegebenen Schwellenwert liegt.
Vorrichtung nach einem vorhergehenden Anspruch, in der eine Linse oder ein anderes fokussierendes optisches Element mit einer optischen Achse vorhanden ist und in der eine lineare Anordnung aus lichtemittierenden Vorrichtungen, die zu der optischen Achse im wesentlichen senkrecht ist, vorhanden ist und in der eine Detektoranordnung, die sowohl zu der optischen Achse als auch zu der Zeile der linearen Anordnung von lichtemittierenden Vorrichtungen im wesentlichen senkrecht ist, vorhanden ist.
Vorrichtung nach einem vorhergehenden Anspruch, in der eine Detektoranordnung mit wenigstens einer Zeile von Detektoren vorhanden ist und in der eine Ausleseschaltung für aufeinanderfolgende Detektoren in der Zeile von Detektoren der Anordnung, die abwechselnd auf gegenüberliegenden Seiten ihrer Zeilen angeordnet sind, vorgesehen ist.
Vorrichtung nach Anspruch 22, in der eine einzige Zeile von Detektoren in der Detektoranordnung vorhanden ist.
Vorrichtung nach Anspruch 23, in der wenigstens drei lichtemittierende Vorrichtungen in einer Zeile vorhanden sind.
Vorrichtung nach Anspruch 24, in der der Controller so beschaffen ist, daß er die als nächstes angrenzenden lichtemittierenden Vorrichtungen in der Zeile der Reihe nach beleuchtet.
Vorrichtung nach einem vorhergehenden Anspruch, in der die lichtemittierenden Vorrichtungen in einer Matrix vorgesehen sind.
Verfahren zur Erfassung des Vorhandenseins eines oder mehrerer Referenzbilder in einer Szene, das die folgenden Schritte umfaßt: Erzeugen einer Bildszene, die wenigstens einem Teil einer Szene entspricht; Verarbeiten wenigstens eines Teils der aufgenommenen Bildszene, um ein Szenenmuster zu erzeugen, das der Fourier-Transformation eines aufgenommenen Szenenbildes entspricht; elektronisches Kombinieren des Szenenmusters mit wenigstens einem Referenzmuster, das der Fourier-Transformation eines Referenzobjekts entspricht, um ein kombiniertes Muster zu erzeugen, und Erzeugen einer optischen Ausgabe, die aus dem kombinierten Muster abgeleitet ist; wobei das Verfahren ferner umfaßt: Vorsehen wenigstens zweier lichtemittierender Vorrichtungen in einem optischen System, wobei sich die wenigstens zwei optischen Vorrichtungen in Bezug auf eine optische Achse des Systems an unterschiedlichen Positionen befinden, und wobei das Verfahren ferner die folgenden Schritte umfaßt: Steuern der Vorrichtungen in der Weise, daß jede Vorrichtung nacheinander effektiv beleuchtet wird, um die Lichtstrahlquelle zu bewegen, und Vorsehen wenigstens eines Detektormittels in einer Ebene, die das optische Muster, das überwacht werden soll, enthält, wobei die Steuerung der Beleuchtung der Vorrichtungen das zweidimensionale Muster über den Detektormitteln abtastet.
Verfahren nach Anspruch 27, bei dem eine Linse, ein Spiegel oder ein anderes fokussierendes optisches Element in dem System vorgesehen ist und die lichtemittierenden Vorrichtungen sich in Bezug auf die optische Achse jenes optischen Elements an unterschiedlichen Positionen befinden.
Verfahren nach Anspruch 27 oder Anspruch 28, bei dem ein räumlicher Lichtmodulator vorgesehen ist und angesteuert wird, um ein Muster anzuzeigen, das wenigstens einer Kombination der Fourier-Transformation eines Szenenmusters und eines Referenzmusters entspricht.
Verfahren nach einem der Ansprüche 27 bis 29, bei dem eine Zeile aus mehr als zwei lichtemittierenden Vorrichtungen vorhanden ist und die als nächstes angrenzenden lichtemittierenden Vorrichtungen längs der Zeile der Reihe nach beleuchtet werden.
Verfahren zur Mustererkennungskorrelation, das das Verfahren nach Anspruch 27 oder Anspruch 30 verwendet.