DE69128741T2

DE69128741T2 - Mehrstufiger Befehlscachespeicher und Verwendungsverfahren dafür

Info

Publication number: DE69128741T2
Application number: DE69128741T
Authority: DE
Inventors: Chi-Hung Chi
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1990-05-18
Filing date: 1991-05-10
Publication date: 1998-07-16
Anticipated expiration: 2011-05-11
Also published as: DE69128741D1; EP0457403A2; US5473764A; JPH04232549A; EP0457403B1; EP0457403A3

Description

Die Erfindung bezieht sich auf Verfahren und Systeme zur Speichersteuerung in einem elektronischen Rechner. Insbesondere bezieht sich die Erfindung auf Hochgeschwindigkeits-Pufferspeicher, die die Schnittstelle zwischen einer zentralen Verarbeitungseinheit oder einem Multiprozessor-Verarbeitungselement und dem Hauptspeicher eines Rechners bilden.
Mit den Fortschritten in der VLSI-Technologie (Very Large Scale Integration) und der Größtrechner-Technik kann ein Prozessor mit einer Rechenleistung, die der eines Größtrechners ähnelt, auf einem einzigen Chip hergestellt werden. Obwohl Verbesserungen in der Technologie der integrierten Schaltungen zu erheblich reduzierten Gatter-Verzögerungen geführt haben, wurden die Geschwindigkeit und die Dichte der Speicherkomponenten nicht in gleichem Maße verbessert. Die Folge ist, daß die Gesamtleistung von Rechnern mit diesen Prozessoren normalerweise durch die Geschwindigkeit des Speichersystems beschränkt wird. Cachespeicher dienen zum Überbrücken der Lücke zwischen Speicher- und Prozessorgeschwindigkeit.
Der Cachespeicher ist ein schneller Pufferspeicher, der die Schnittstelle zwischen der Verarbeitungseinheit und dem Hauptspeicher eines Rechners bildet. Der hier benutzte Ausdruck "Verarbeitungseinheit" kann sich auf eine zentrale Verarbeitungseinheit oder ein Multiprozessor-Verarbeitungselement beziehen. Sinn des Cachespeichers ist es, schnell zugängliche Kopien der Daten und Befehle bereitzuhalten, die der Prozessor am wahrscheinlichsten benötigen wird. Der Cachespeicher kann viel kleiner sein als der Hauptspeicher, und es ist daher möglich, den Cachespeicher mit einer schnelleren und kostenaufwendigeren Technologie zu implementieren als für die Implementierung eines Hauptspeichers wirtschaftlich wäre. Wenn der Cache die geeigneten Daten und Befehle enthält, sieht die Verarbeitungseinheit tatsächlich nur die schnelle Cache-Zugriffszeit, verfügt jedoch über den großen Adreßraum des Hauptspeichers. Außerdem kann ein ordnungsgemäß verwaltetes Cachesystem eine indirekte positive Auswirkung auf die Recheneffizienz haben, da der Datenverkehr auf dem Systembus reduziert wird.
Eine Verarbeitungseinheit arbeitet durch sequentielle Ausführung eines Programms von Befehlen, die an adressierten Stellen des Hauptspeichers gespeichert sind. Programmblöcke mit Befehlen zur sequentiellen Ausführung sind in benachbarten Speicheradressen gespeichert. Die Verarbeitungseinheit fordert diese Befehle der Reihe nach über ein Programmzählerregister vom Speicher an, das inkrementiert wird, um bei jedem Befehlszyklus auf einen neuen Befehlscode zu zeigen. Solange der Programmablauf sequentiell bleibt, läßt sich die Funktion des Cachespeichers leicht implementieren, indem Befehlscodes von den Speicherplätzen ein oder mehrere Zeilen vor der im Programmzähler gehaltenen Adresse vorabgerufen werden. Die vorabgerufenen Befehle stehen dann im schnellen Cachespeicher zur Verfügung, wenn sie tatsächlich durch den Prozessor adressiert werden, und man spricht von einem erzielten "Cache-Volltreffer". Wenn der Programmablauf jedoch eine Verzweigung oder eine Schleife zu einer nichtsequentiellen Befehlsadresse erfordert, ist der benötigte Befehlscode eventuell nicht im Cachespeicher vorhanden, wenn er durch den Prozessor angefordert wird, und man spricht von einem "Cache-Fehltreffer". Wenn ein Cache-Fehltreffer auftritt, muß die Verarbeitung unterbrochen werden, während die Daten vom Hauptspeicher abgerufen werden.
Die Entwurfsziele für ein gutes Cachespeichersystem sind daher: Das Cache-Volltreffer-Verhältnis sollte so hoch sein, daß die Verarbeitungseinheit nicht auf Befehle warten muß; der Bus-Datenverkehr sollte so gering wie möglich sein, damit die Wahrscheinlichkeit eines Bus-Konkurrenzbetriebs zwischen Daten- und Befehlszugriffen reduziert wird (der Bus-Datenverkehr ist ein besonders kritischer Leistungsengpaß bei Einchipsystemen, weil die Gesamtzahl der E/A-Stifte eines Chips oft begrenzt ist); und die Chipfläche sollte effizient genutzt werden, da sie immer teuer und begrenzt ist. Das letztgenannte Kriterium impliziert, daß die Komplexität der mit der Cachesteuerung verbundenen Hardware so einfach wie möglich sein sollte.
Im Handbuch mit dem Titel "AM29000 32-bit Streamlined Instruction Processor User's Manual", das 1988 durch Advanced Micro Devices, Inc. veröffentlicht wurde, wird ein Befehlscachesystem beschrieben, bei dem alle durch einen Prozessor ausgeführten Befehle entweder von einem Sprungziel-Cache abgerufen oder von einem externen Befehlsspeicher vorabgerufen werden. Wenn Befehle von dem externen Speicher vorabgerufen werden, werden sie im vorhinein angefordert, um die Zeitsteuerung der Befehiszugriffe zu unterstützen. Der Prozessor versucht, den Abruf des nächsten Befehls während jedes Programmzyklus zu initiieren.
Da Befehle im vorhinein - basierend auf einem vorgegebenen Bedarf - angefordert werden, ist es möglich, daß ein vorabgerufener Befehl nicht für die Ausführung benötigt wird, wenn der Vorabruf beendet ist. Um diese Möglichkeit zu berücksichtigen, enthält die Befehlsabrufeinheit einen Vier-Worte-Befehls-Vorabrufpuffer, der zirkulär adressiert wird und als First-in-First-out-Schlange für Befehle fungiert. Der Prozessor enthält auch einen Sprungziel-Cache, um den schnellen Zugriff auf Befehle zu ermöglichen, die nicht-sequentiell abgerufen werden. Das Ziel eines nicht-sequentiellen Abrufs befmdet sich im Sprungziel-Cache, wenn ein ähnlicher Abruf für das gleiche Ziel erst vor kurzem aufgetreten ist, so daß es weder durch das Ziel eines anderen nicht-sequentiellen Abrufs ersetzt wurde noch durch einen eingreifenden Befehl ungültig gemacht wurde. Wenn ein nicht-sequentieller Abruf auftritt, entweder über einen Sprungbefehl, einen Interrupt oder einen Trap (nicht programmierter Sprung), wird die Adresse für den Abruf dem Sprungziel-Cache zu der gleichen Zeit vorgelegt, wie sie an den Hauptspeicher weitergeleitet wird.
Der bekannte Befehlscache hat den Nachteil, daß nach einem nicht-sequentiellen Abruf, wenn der externe Speicher zu langsam ist, die verfügbaren Befehle im Sprungziel-Cache erschöpft sein werden, bevor neue Befehle vom Speicher zur Verfügung stehen, so daß es zu einem Cache-Fehltreffer kommt, der die erreichbare Ausführungsgeschwindigkeit reduziert. Im Prinzip kann dieses Problem dadurch gelöst werden, daß die Größe der Sprungziel-Cache-Blöcke an die Geschwindigkeit des externen Speichers angepaßt wird, jedoch erfordert diese Lösung große Sprungziel-Speicher für viele Sprungziele.
Die Erfindung hat zur Aufgabe, eine Cache-Architektur zu schaffen, die das Cache-Volltreffer-Verhältnis bei einer begrenzten Menge von Cachespeicher verbessert.
Erfindungsgemäß ist ein Cachespeicher in drei Stufen organisiert: 1) ein Vorabrufpuffer; 2) ein Kopfpuffer; und 3) ein Nutzungspuffer.
Der Vorabrufpuffer arbeitet auf herkömmliche Weise, um Befehlszeilen von sequentiellen Speicheradressen vor der Adresse vorabzurufen, die durch den Programmzähler bestimmt wird. Er ist vorzugsweise relativ klein und als FIFO-Register (First-In-First-Out) organisiert. Befehle, die in Blöcken des sequentiell ausgeführten Codes enthalten sind, führen normalerweise zu Cache-Volltreffern im Vorabrufpuffer oder im Nutzungspuffer.
Der Nutzungspuffer ist ein relativ großer Block von schnellem Cachespeicher mit einfacher Steuerungs-Hardware, die entwurfen wurde, um die Chipfläche effizient zu nutzen. Typischerweise kann der Nutzungspuffer zum Beispiel ein direkt abgebildeter Puffer mit einer großen Blockgröße sein. Wenn der Prozessor einen Cache- Volltreffer im Vorabrufpuffer erzielt, wird die Cachezeile, die den betreffenden Befehl enthält, ebenfalls an den Nutzungspuffer übertragen, wo sie eine zuvor gespeicherte Zeile ersetzt. Der Nutzungspuffer bietet einen wirtschaftlichen und schnellen Zugriff auf vor kurzem ausgeführte Befehle und ist daher besonders effizient bei der Ausführung von Code in sich wiederholenden Programmschleifen.
Der Kopfpuffer ist ein relativ kleiner Puffer, der als FIFO-Register organisiert ist und zum Speichern von Befehlen vom Anfang der Programmcodeblöcke an dient. Wenn die Verarbeitungseinheit einen angeforderten Befehl in den Cachepuffern verfehlt, wird über einen Bus-Abruf mit hoher Priorität auf den Befehl vom Hauptspeicher zugegriffen. Die relative Adresse des abgerufenen Befehis wird in Übereinstimmung mit einer vorgegebenen Regel geprüft, und wenn die Prüfbedingungen erfüllt werden, wird der Befehl im Kopfpuffer gespeichert. Werden die Prüfbedingungen nicht erfüllt, wird der Befehl im Nutzungspuffer gespeichert.
Es ist möglich, eine erhöhte Cache-Effizienz zu erreichen, indem Befehle, die den Cache-Inhalt vorübergehend für späteren Zugriff einfrieren, selektiv in Programme kompiliert werden. Erfindungsgemäß kann ein mehrstufiger Cache Hardware umfassen, die auf einen Einfrier-Befehlscode reagiert, indem sie das Schreiben von neuen Daten in den Kopfpuffer und den Nutzungspuffer verhindert. Dieses Merkmal wird zum Beispiel benutzt, um eine effiziente und schnelle Ausführung von Programmschleifen zu erreichen.
In einer Äusführungsform der Erfindung arbeitet der Vorabrufpuffer, um kontinuierlich Befehle sequentiell zum Programmzähler vorabzurufen, ungeachtet des Inhalts des Kopfpuffers und des Nutzungspuffers.
In einer zweiten, ausgeklügelteren Ausführungsform der Erfindung wird das sequentielle Vorabrufen verhindert, sobald festgestellt wird, daß der vorabzurufende Befehl bereits im Kopfpuffer oder im Nutzungspuffer vorhanden ist. Der Vorteil dabei besteht darin, daß der Datenverkehr auf dem Systembus dadurch entsprechend reduziert wird.
Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im folgenden näher beschrieben. Es zeigen:
Figur 1 die Organisation und den Befehlsfluß in einer Rechneranordnung, die die Erfindung enthält;
Figur 2 die Pufferung der Befehle in einem Computerprogramm; und
Figur 3 die Nutzung der Einfrier- und Ausfrier-Befehle während der Ausführung einer Programmschleife.
Figur 1 zeigt die Organisation und den Befehlsfiuß im Cachespeicher einer Rechneranordnung, die die Erfindung enthält.
Eine Verarbeitungseinheit 10, die Teil eines VLSI-Einchip-Mikroprozessors sein kann, enthält ein Programmzählerregister 10a, dessen Inhalt regelmäßig aktualisiert wird, um die Adresse des nächsten Programmbefehls zu enthalten, der durch die Verarbeitungseinheit ausgeführt werden soll. Programmbefehle werden in einer Hauptspeichereinheit 12 gespeichert und umfassen typischerweise Blöcke von sequentiellen Befehlen, die durch nicht-sequentielle Sprung- und Schleifenbefehle miteinander in Beziehung stehen. Der Prozessor kann auch Hardware-Interrupts unterliegen, die das Programm veranlassen, asynchron zu anderen Programmsequenzen zu verzweigen, die ebenfalls im Speicher 12 gespeichert sind. Die Daten werden zwischen dem Hauptspeicher 12 und der Verarbeitungseinheit 10 durch einen Cache übertragen, der einen Vorabruipuffer 14, einen Nutzungspuffer 16 und einen Kopfpuffer 18 enthält. Die Befehle werden vom Hauptspeicher über einen Systembus 20 in Übereinstimmung mit Protokollen abgerufen, die durch eine Cachesteuerung 24 aufgestellt wurden.
Der Vorabrufpuffer 14 dient zur Verbesserung des Cache-Volltreffer-Verhältnisses durch das Vorabrufen von Befehlen, auf die in Kürze verwiesen wird (oder auf die mit hoher Wahrscheinlichkeit verwiesen wird). Er ist als FIFO-Register organisiert und ist typischerweise relativ klein. Der Vorabrufpuffer greift über Übertragungen mit geringer Priorität über den Systembus 20 auf Befehle von Adressen zu, die sequentiell vor der Adresse im Programmzähler 10a liegen. Wie nachstehend beschrieben, kann der Vorabrufpuffer kontinuierlich Befehle vorabrufen, oder seine Funktion kann durch die Steuerung 24 in Reaktion auf den Inhalt des Kopfpuffers und des Nutzungspuffers verhindert werden.
Der Kopfpuffer 18 dient zum Vereinfachen des Einfrierens der ersten Zeile eines Basisblocks für Schleifen- oder Subroutinen-Befehle. Er ist relativ klein und ebenfalls als FIFO-Register organisiert.
Alternativ können der Vorabrufpuffer und/oder der Kopfpuffer als LRU- Register (Least-recently-used) organisiert sein.
Der Nutzungspuffer dient zum Reduzieren des Datenverkehrs auf dem Systembus 20 durch Speichern von Befehlen, auf die vor kurzem durch den Prozessor zugegriffen wurde, in der Erwartung, daß sie noch einmal benutzt werden könnten. Er ist vorzugsweise auf einfache Weise organisiert, um eine effiziente Nutzung der Chipfläche zu ermöglichen, und kann zum Beispiel ein direkt abgebildeter Cache mit einer großen Cacheblockgröße (d.h. einem kleinen Cache-Kennungsbereich) sein. Es ist auch möglich, den Nutzungspuffer als einen komplizierteren assoziativen Cache zu implementieren, indem Chipfläche für die Effizienz der Funktion eingetauscht wird.
Wenn die Verarbeitungseinheit 10 eine Speicheranforderung ausgibt, können vier verschiedene Situationen auftreten:
- Wenn der angeforderte Befehl sich bereits im Vorabrufpuffer 14 befinden (d.h. wenn ein Vorabrufpuffer-Volltreffer vorliegt), wird der betreffende Befehl vom Vorabrufpuffer 14 an die Verarbeitungseinheit 10 gesendet und die betreffende Befehlszeile an den Nutzungspuffer übertragen, wo sie die zuvor in dieser Zeile gespeicherten Informationen ersetzt. Nachdem die betreffende Zeile an den Nutzungspuffer übertragen wurde, wird sie aus dem Vorabrufpuffer entfernt.
- Wenn der angeforderte Befehl bereits im Kopfpuffer 18 gespeichert ist, wird der betreffende Befehl vom Kopfpuffer an die Verarbeitungseinheit 10 gesendet. Es findet keine weitere Informationsübertragung zwischen den drei Puffern statt.
- Wenn der betreffende Befehl bereits im Nutzungspuffer 16 gespeichert ist, wird der betreffende Befehl vom Nutzungspuffer 16 an die Verarbeitungseinheit 10 gesendet. Es findet keine weitere Informationsübertragung zwischen den drei Puffern statt.
- Wenn der betreffende Befehl weder im Vorabrufpuffer noch im Nutzungspuffer oder im Kopfpuffer gefunden wird (d.h. es liegt ein Cache-Fehltreffer vor), wird eine Speicher-Anforderung für den betreffenden Befehl mit hoher Priorität über den Systembus 20 an den Hauptspeicher 12 gesendet. Wenn der angeforderte Befehl vom Hauptspeicher im Cache eintrifft, wird er an den Prozessor 10 gesendet und auch je nach Ergebnis einer vordefinierten Prüfung entweder im Kopfpuffer 18 oder im Nutzungspuffer 16 gespeichert. Wenn der Befehl im Kopfpuffer gespeichert wird, ersetzt er den ältesten Code in diesem Puffer und der ersetzte Code wird aus dem Cache entfernt.
Die Prüfungen, mit denen bestimmt werden kann, ob der vom Hauptspeicher abgeholte Befehl im Kopfpuffer 18 oder im Nutzungspuffer 16 gespeichert wird, beruhen typischerweise auf einem Vergleich der Adresse des vom Speicher abgeholten Befehls mit der Adresse des zuletzt durch die Verarbeitungseinheit 10 ausgeführten Befehls. In einer Ausführungsform der Prüfung wird der vom Speicher abgerufene Befehl im Kopfpuffer gespeichert, wenn er nicht-sequentiell mit dem zuletzt ausgeführten Befehl im Programmzähler ist. In einer zweiten Ausführungform der Prüfung wird der vom Hauptspeicher abgerufene Befehl nur im Kopfpuffer gespeichert, wenn er nicht-sequentiell in bezug auf den zuvor ausgeführten Befehl mit einer negativen Verschiebung ist, die größer ist als die Größe des Nutzungspuffers. In einer dritten Ausführungsform der Prüfung wird der Befehl nur im Kopfpuffer gespeichert, wenn er nicht-sequentiell mit einem zuvor gespeicherten Befehl mit einer absoluten Verschiebung ist, die größer ist als die Größe des Nutzungspuffers. In allen Fällen wird der betreffende Befehl im Nutzungspuffer gespeichert, wenn er nicht im Kopfpuffer gespeichert wird.
Figur 2 zeigt die Verwendung der Cachepuffer in einer typischen Programmsequenz, die Block B&sub1; mit den sequentiellen Befehlen P&sub1; bis Pn, einen zweiten sequentiellen Block B&sub2; in Form einer Schleife mit den sequentiellen Befehlen Q&sub1; bis Qn und einen dritten Block B&sub3; mit den sequentiellen Befehlen R&sub1; bis Rn umfaßt. Bei einem typischen Betrieb springt das Programm von einer entfernten Speicheradresse zu dem ersten Befehl P&sub1; von Block B&sub1;. Wenn die Befehlszeile P&sub1; nicht bereits in einem der drei Cachepuffer vorliegt, wird sie im Kopfpuffer 18 gespeichert. Die Befehle P&sub1; bis Pn in Block B&sub1; werden anschließend der Reihenfolge nach ausgeführt und auf herkömmliche Weise vom Hauptspeicher 12 in den Vorabrufpuffer 14 vorabgerufen. Die Befehle im Block werden auch im Nutzungspuffer 16 gespeichert, wenn sie vom Vorabrufpuffer 14 an die CPU 10 gesendet werden, jedoch werden sie im dargestellten Beispiel wahrscheinlich nicht noch einmal benutzt. Am Ende von Block B&sub1; springt das Programm vom Befehl Pn zum Befehl Q&sub1; an einer nicht-sequentiellen Adresse. Der Befehl Q&sub1; stellt den Anfang des Programmblocks B&sub2; dar und ist die Eintrittsstelle für eine Befehlsschleife. Der Befehl Q&sub1; steht nicht im Vorabrufpuffer zur Verfügung und wird über den Bus vom Hauptspeicher geholt und im Kopfpuffer gespeichert. Die Befehle Q&sub1; bis Qn werden anschließend der Reihe nach ausgeführt. Sie werden durch den Vorabrufpuffer vom Hauptspeicher vorabgerufen und gleichzeitig mit der Übertragung an die CPU auch im Nutzungspuffer gespeichert. Das Programm verzweigt am Ende von Block B&sub2; rückwärts zum Befehl Q&sub1;. Die Verzweigung ist nicht-sequentiell, aber der Befehl Q&sub1; befindet sich im Kopfpuffer, weil er der erste Befehl in einem kürzlich ausgeführten Block ist. Wenn die Länge der Befehlssequenz von Q&sub2; bis Qn nicht größer ist als der Nutzungspuffer, befinden sich diese Befehle nach der ersten Ausführung der Schleife immer noch im Nutzungspuffer und können ohne weitere Übertragungen über den Systembus vom Cache abgeholt werden, solange die Schleife dauert. Am Ende der Schleife erfolgt ein Sprung zu Block B&sub3;. Der Befehl R&sub1;, der sich nicht im Cache befindet, wird vom Hauptspeicher geholt und wieder im Kopfpuffer 18 gespeichert.
In einer einfachen Ausführungsform arbeitet der Vorabrufpuffer kontinuierlich und belastet den Bus 20 dadurch ständig mit Datenverkehr. In einer bevorzugten Ausführungsform der Anordnung prüft die Steuereinheit 24 den Inhalt der drei Puffer, um zu bestimmen, ob der nächste vorabzurufende sequentielle Befehl sich bereits im Cachespeicher befindet. Wenn der Befehl bereits im Cache enthalten ist, wird der Vorabruf verhindert, um den Datenverkehr auf dem Bus 20 zu reduzieren.
In Übereinstimmung mit der US-Patentanmeldung mit der Seriennummer 500.612 kann der Befehlssatz des Prozessors Befehle enthalten, die als "Einfrier"- und "Ausfrier"-Befehle bezeichnet werden und die selektiv das Überschreiben von Daten in einem Cachespeicher zulassen oder verhindern. In einer bevorzugten Ausführungsform der Erfindung ist ein Einfrier-Befehl über Gatter 22 implementiert, um das Schreiben von neuen Daten in den Nutzungspuffer 16 und den Kopfpuffer 18 zu verhindern, wenn der Einfrier-Befehl aktiv ist. Wenn der Nutzungspuffer und der Kopfpuffer eingefroren sind, funktioniert der Vorabrufpuffer auf übliche Weise weiter (entweder kontinuierliches Vorabrufen oder Vorabrufen in Abhängigkeit vom Inhalt des Cachespeichers) und der Prozessor darf immer noch Daten vom Kopfpuffer 18 und vom Nutzungspuffer 16 lesen.
Figur 3 zeigt die typische Anwendung eines Einfrier-Befehis in einer Schleife. Eine Programmschleife, zum Beispiel Block B&sub2;, wird in zwei Code-Sequenzen kompiliert. Die erste Sequenz L&sub1; stellt den ersten Durchgang durch die Schleife dar und die zweite Sequenz L&sub2; stellt die nachfolgenden Durchgänge durch die Schleife dar. Während des ersten Durchgangs wird der Befehl Q1A im Kopfpuffer gespeichert und die Befehle werden sequentiell im Nutzungspuffer gespeichert. Wenn der Nutzungspuffer in der Lage ist, X Befehle zu halten und das Schleifensegment L&sub1; größer ist als X, wird der Nutzungspuffer am Ende der Schleife (nach der Ausführung des Befehls Qn) die Befehle Qn-x+1 bis Qn enthalten. An diesem Punkt fügt der Compiler einen Einfrier- Befehl in den Befehlsfluß ein, der den Inhalt des Nutzungspuffers und des Kopfpuffers einfriert. Der Code fährt mit der Ausführung des Schleifensegments L&sub2; fort, aber die Befehle Q&sub1; und Qn-x+1 bis Qn sind bereits im Cache gespeichert, so daß ein Vorabrufen mit dem damit einhergehenden Datenverkehr auf dem Bus nur zwischen den Befehlen Q&sub2; und Qn-x erforderlich ist. Wenn das Programm die Schleife verläßt, wird ein Ausfrier-Befehl ausgeführt und der Cache kehrt zu seinem normalen Betrieb zurück.
Obwohl die Erfindung unter Bezugnahme auf bestimmte Ausführungsformen beschrieben wurde, wird der Fachkundige erkennen, daß sie leicht erweitert oder abgewandelt werden kann, und die Schutzansprüche schließen deratige Abwandlungen und Erweiterungen ein.

Claims

1. Cachespeichersystem zur Implementierung der Übertragung von Befehlscodes von einem Hauptspeicher an eine Verarbeitungseinheit (10), wobei die genannte Verarbeitungseinheit einen Programmzähler (loa) umfaßt, dessen Inhalt eine Adresse im Hauptspeicher (12) spezifiziert, welche einen nächsten durch die genannte Verarbeitungseinheit auszuführenden Befehlscode enthält, mit:

Vorabrufpuffermitteln (14), die angeschlossen sind, um Befehlscodes von Adressen im Hauptspeicher vorabzurufen und zu speichern, die sequentiell auf die im Programmzähler enthaltenen Adressen folgen;

gekennzeichnet durch:

einen Kopfpuffer (18) zum Speichern von Befehlscodes;

einen Nutzungspuffer (16) zum Speichern von Befehlscodes;

Befehlsübertragungs-Steuerungsmittel (24), die auf den Inhalt des Programmzählers, der Vorabrufpuffermittel, des Kopfpuffers und des Nutzungspuffers reagieren und so funktionieren, daß:

a) wenn sich ein durch den Programmzähler (10a) spezifizierter Befehlscode im Vorabrufpuffer (14) befindet, der genannte Code an die Verarbeitungseinheit (10) übertragen wird und auch im Nutzungspuffer (16) gespeichert wird,

b) wenn sich der durch den Programmzähler (10a) spezifizierte Befehlscode im Kopfpuffer (18) oder im Nutzungspuffer (16) befindet, der genannte Code an die Verarbeitungseinheit (10) übertragen wird, oder

c) wenn sich der durch den Programmzähler (10a) spezifizierte Befehlscode nicht in den Vorabrufpuffermitteln, im Kopfpuffer (18) oder im Nutzungspuffer (16) befindet, der genannte Code vom Hauptspeicher (12) abgerufen wird und an die Verarbeitungseinheit (10) übertragen sowie entweder im Kopfpuffer - wenn der Inhalt des Programmzählers bestimmte Kriterien erfüllt - oder im Nutzungspuffer - wenn der Inhalt des Programmzählers die genannten Kriterien nicht erfüllt - gespeichert wird.

2. System nach Anspruch 1, wobei die Befehlsübertragungs-Steuerungsmittel weiterhin dazu dienen, den durch den Programmzähler spezifizierten Code aus dem Vorabrufpuffer zu entfernen, nachdem der genannte Code im Nutzungspuffer gespeichert ist.

3. System nach Anspruch 1 oder 2, wobei die Befehlsübertragungs-Steuerungsmittel auf eine konkrete, durch den Innalt des Programmzählers spezifizierte Speicheradresse reagieren.

4. System nach Anspruch 1 oder 2, wobei die genannten Kriterien erfüllt werden, wenn die durch den Inhalt des Programmzählers spezifizierte Speicheradresse nicht-sequentiell mit der Adresse des zuletzt durch die Verarbeitungseinheit ausgeführten Befehls ist.

5. System nach Anspruch 4, wobei die genannten Kriterien erfüllt werden, wenn die durch den Inhalt des Programmzählers spezifizierte Speicheradresse von der Adresse des zuletzt durch die Verarbeitungseinheit ausgeführten Befehis absolut um einen Betrag verschoben ist, der größer ist als die Größe des Nutzungspuffers.

6. System nach Anspruch 4, wobei die genannten Kriterien erfüllt werden, wenn die durch den Inhalt des Programmzählers spezifizierte Speicheradresse von der Adresse des zuletzt durch die Verarbeitungseinheit ausgeführten Befehls negativ um einen Betrag verschoben ist, der größer ist als die Größe des Nutzungspuffers.

7. System nach Anspruch 1 oder 2, wobei das Vorabrufpuffermittel (14) kontinuierlich Befehlscodes von sequentiellen Adressen im Hauptspeicher vorabruft.

8. System nach Anspruch 1 oder 2, das außerdem Vorabruf-Steuerungsmittel (24) enthält, die mit den Vorabrufpuffermitteln (14), dem Kopfpuffer (18) und dem Nutzungspuffer (16) verbunden sind und das Vorabrufen von Befehlscodes von den Speicheradressen verhindern, wenn ein angeforderter Befehlscode bereits in den Vorabrufpuffermitteln, im Kopfpuffer oder im Nutzungspuffer vorhanden ist.

9. System nach Anspruch 1 oder 2, wobei der Nutzungspuffer (16) als ein direkt abgebildeter Cachepuffer organisiert ist.

10. System nach Anspruch 1 oder 2, wobei der Nutzungspuffer (16) als ein assoziativer Cachepuffer organisiert ist.

30 11. System nach Anspruch 1 oder 2, wobei der Nutzungspuffer (16) größer ist als der Vorabrufpuffer (14) und als der Kopfpuffer (18).

12. System nach Anspruch 1 oder 2, das weiterhin Cache-Einfriermittel (22) umfaßt, welche auf steuerbare Weise die Datenübertragung in den Nutzungspuffer (16) und den Kopfpuffer (18) in Reaktion auf vordefinierte Befehlscodes verhindern, die durch die Verarbeitungseinheit (10) verarbeitet werden.

13. System nach Anspruch 12 in Kombination mit Befehlscompilermitteln, die Befehlscodeschleifen wie folgt erzeugen: zuerst ein erster Block von sequentiellen Befehlen, die eine erste Iteration einer Schleife spezifizieren, dann ein Einfrier-Befehlscode, der die Übertragung in den Nutzungspuffer (16) und den Kopfpuffer (18) verhindert, dann ein zweiter Block von Befehlen, die weiteren Iterationen der Schleife implementieren, und dann ein Ausfrier-Befehlscode, der die Datenübertragung in den Nutzungspuffer (16) und den Kopfpuffer (18) zuläßt.

14. Integrierte Mikroprozessor-Schaltung, die die Verarbeitungseinheit und das Cachesystem von Anspruch 1 oder Anspruch 2 umfaßt.

15. Verfahren zum Betreiben eines Rechners zur Implementierung der Übertragung von Befehlscodes von einem Hauptspeicher (12) an eine Verarbeitungseinheit (10), wobei die genannte Verarbeitungseinheit einen Programmzahler (10a) umfaßt, dessen Inhalt eine Adresse im Hauptspeicher spezifiziert, welche einen nächsten durch die genannte Verarbeitungseinheit auzuführenden Befehlscode enthält, bestehend aus folgenden Schritten:

Liefern eines Cachespeichers mit einem Vorabrufpuffer (14), einem Befehlspuffer (18) und einem Nutzungspuffer (16), wobei der genannte Kopfpuffer und der genannte Nutzungspuffer zum Speichern von Befehlscodes zu benutzen sind;

Vorabrufen und Speichern von Befehlscodes von Adressen im Hauptspeicher, die sequentiell auf die im Programmzähler enthaltenen Adressen folgen, im Vorabrufpuffer;

wobei der genannte Cachespeicher außerdem so betrieben wird, daß:

wenn sich ein durch den Programmzähler (10a) spezifizierter Befehlscode im Vorabrufpuffer (14) befindet, der genannte Code an die Verarbeitungseinheit (10) übertragen wird und auch im Nutzungspuffer (16) gespeichert wird,

wenn sich der durch den Programmzähler (10a) spezifizierte Befehlscode im Kopfpuffer (18) oder im Nutzungspuffer (16) befindet, der genannte Code an die Verarbeitungseinheit (10) übertragen wird,

wenn sich der durch den Programmzähler (10a) spezifizierte Befehlscode nicht im Vorabrufpuffer, im Kopfpuffer (18) oder im Nutzungspuffer (16) befindet, der genannte Code vom Hauptspeicher (12) abgerufen wird und an die Verarbeitungseinheit (10) übertragen sowie entweder im Kopfpuffer - wenn der Inhalt des Programmzählers bestimmte Kriterien erfüllt - oder im Nutzungspuffer - wenn der Inhalt des Programmzahlers die genannten Kriterien nicht erfüllt - gespeichert wird.

Bildinschriften:

Fig. 1:

CPU: Verarbeitungseinheit

PREFETCH BUFFER: Vorabrufpuffer

HEAD BUFFER: Kopfpuffer

USE BUFFER: Nutzungspuffer

CONTROL: Steuerung

MAIN MEMORY: Hauptspeicher

Fig. 3:

FREEZE: EINFRIEREN

UNFREEZE: AUSFRIEREN