Wenn Sie ein Gemma-Modell ausführen möchten, müssen Sie zwei wichtige Entscheidungen treffen: 1) Welche Gemma-Variante soll ausgeführt werden? und 2) Welches KI-Ausführungs-Framework soll dafür verwendet werden? Bei beiden Entscheidungen spielt eine wichtige Rolle, welche Hardware Ihnen und Ihren Nutzern zur Verfügung steht, um das Modell auszuführen.
Diese Übersicht soll Ihnen helfen, diese Entscheidungen zu treffen und mit Gemma-Modellen zu arbeiten. Die allgemeinen Schritte zum Ausführen eines Gemma-Modells sind wie folgt:
- Framework für die Ausführung auswählen
- Gemma-Variante auswählen
- Anfragen zur Generierung und Inferenz ausführen
Framework auswählen
Gemma-Modelle sind mit einer Vielzahl von Ökosystem-Tools kompatibel. Die Auswahl des richtigen Tools hängt von der verfügbaren Hardware (Cloud-GPUs im Vergleich zu lokalem Laptop) und Ihren Schnittstellenpräferenzen (Python-Code im Vergleich zu Desktopanwendung) ab.
In der folgenden Tabelle finden Sie schnell das beste Tool für Ihre Anforderungen:
| Gewünschte Aktion | Empfohlenes Framework | Optimal für |
|---|---|---|
| Lokal mit einer Chat-UI ausführen | - LM Studio - Ollama |
Anfänger oder Nutzer, die eine „Gemini-ähnliche“ Erfahrung auf ihrem Laptop wünschen. |
| Effizient auf Edge-Geräten ausführen | - LiteRT-LM - llama.cpp - MediaPipe LLM Inference API - MLX |
Leistungsstarke lokale Inferenz mit minimalen Ressourcen. |
| In Python erstellen/trainieren | - Gemma-Bibliothek für JAX - Hugging Face Transformers - Keras - PyTorch - Unsloth |
Forscher und Entwickler, die benutzerdefinierte Anwendungen erstellen oder Modelle abstimmen. |
| Für Produktion / Unternehmen bereitstellen | - Google Kubernetes Engine (GKE) - Google Cloud Run - Vertex AI - vLLM |
Skalierbare, verwaltete Cloud-Bereitstellung mit Sicherheit auf Unternehmensniveau und MLOps-Support. |
Details zum Framework
Im Folgenden finden Sie Anleitungen zum Ausführen von Gemma-Modellen, kategorisiert nach Bereitstellungsumgebung.
1. Desktop- und lokale Inferenz (hohe Effizienz)
Mit diesen Tools können Sie Gemma auf Consumer-Hardware (Laptops, Desktops) ausführen, indem Sie optimierte Formate (z. B. GGUF) oder bestimmte Hardwarebeschleuniger verwenden.
- LM Studio: Eine Desktopanwendung, mit der Sie Gemma-Modelle in einer benutzerfreundlichen Oberfläche herunterladen und mit ihnen chatten können. Kein Coding erforderlich.
- llama.cpp: Eine beliebte Open-Source-C++-Portierung von Llama (und Gemma), die unglaublich schnell auf CPUs und Apple Silicon ausgeführt wird.
- LiteRT-LM: Bietet eine Befehlszeilenschnittstelle
(CLI) zum Ausführen optimierter
.litertlmGemma-Modelle auf dem Desktop (Windows, Linux, macOS), unterstützt von LiteRT (ehemals TFLite). MLX: Ein Framework, das speziell für maschinelles Lernen auf Apple Silicon entwickelt wurde und sich perfekt für Mac-Nutzer eignet, die integrierte Leistung wünschen.
Ollama: Ein Tool zum lokalen Ausführen offener LLMs, das häufig zur Unterstützung anderer Anwendungen verwendet wird.
2. Python-Entwicklung (Forschung und Feinabstimmung)
Standard-Frameworks für KI-Entwickler, die Anwendungen, Pipelines oder Trainingsmodelle erstellen.
- Hugging Face Transformers: Der Branchenstandard für den schnellen Zugriff auf Modelle und Pipelines.
- Unsloth: Eine optimierte Bibliothek zum Abstimmen von LLMs. Damit können Sie Gemma-Modelle 2- bis 5-mal schneller und mit deutlich weniger Arbeitsspeicher trainieren. So ist es möglich, die Modelle auf Consumer-GPUs abzustimmen (z. B. in den kostenlosen Google Colab-Tarifen).
- Keras / JAX / PyTorch: Kernbibliotheken für die Deep-Learning-Forschung und die Implementierung benutzerdefinierter Architekturen.
3. Bereitstellung auf Mobilgeräten und Edge-Geräten (auf dem Gerät)
Frameworks, die entwickelt wurden, um LLMs direkt auf Nutzergeräten (Android, iOS, Web) ohne Internetverbindung auszuführen. Dabei werden häufig NPUs (Neural Processing Units) verwendet.
- LiteRT-LM: Das vollständig Open-Source-Framework für die LLM-Entwicklung auf Geräten bietet maximale Leistung und detaillierte Steuerung mit direkter Unterstützung für CPU-, GPU- und NPU-Beschleunigung auf Android und iOS.
- MediaPipe LLM Inference API: Die einfachste Möglichkeit, Gemma in plattformübergreifende Apps zu integrieren. Es bietet eine API auf hoher Ebene, die auf Android, iOS und im Web funktioniert.
4. Cloud- und Produktionsbereitstellung
Verwaltete Dienste zum Skalieren Ihrer Anwendung auf Tausende von Nutzern oder zum Zugriff auf enorme Rechenleistung.
- Vertex AI: Die vollständig verwaltete KI-Plattform von Google Cloud. Optimal für Unternehmensanwendungen, die SLAs und Skalierung erfordern.
- Google Kubernetes Engine (GKE): Zum Orchestrieren Ihrer eigenen Bereitstellungscluster.
- vLLM: Eine Inferenz- und Bereitstellungs-Engine mit hohem Durchsatz und effizienter Speichernutzung, die häufig in Cloud-Bereitstellungen verwendet wird.
Achten Sie darauf, dass das gewünschte Gemma-Modellformat für die Bereitstellung, z. B. das integrierte Keras-Format, Safetensors oder GGUF, von Ihrem ausgewählten Framework unterstützt wird.
Gemma-Variante auswählen
Gemma-Modelle sind in verschiedenen Varianten und Größen verfügbar, darunter die Foundation- oder Core Gemma-Modelle und spezialisiertere Modellvarianten wie PaliGemma und DataGemma. Außerdem gibt es viele Varianten, die von der KI-Entwickler-Community auf Websites wie Kaggle und Hugging Face erstellt wurden. Wenn Sie nicht sicher sind, mit welcher Variante Sie beginnen sollen, wählen Sie das neueste Gemma Core-Modell mit der niedrigsten Anzahl von Parametern, das für Anweisungen abgestimmt ist. Diese Art von Gemma-Modell hat geringe Rechenanforderungen und kann auf eine Vielzahl von Prompts reagieren, ohne dass zusätzliche Entwicklung erforderlich ist.
Berücksichtigen Sie bei der Auswahl einer Gemma-Variante die folgenden Faktoren:
- Gemma Core und andere Variantenfamilien wie PaliGemma und CodeGemma: Empfehlung: Gemma (Core). Gemma-Varianten, die über die Core-Version hinausgehen, haben dieselbe Architektur wie das Core-Modell und sind darauf trainiert, bestimmte Aufgaben besser zu erfüllen. Wenn Ihre Anwendung oder Ihre Ziele nicht mit der Spezialisierung einer bestimmten Gemma-Variante übereinstimmen, sollten Sie mit einem Gemma-Core- oder Basismodell beginnen.
- Für Anweisungen abgestimmt (Instruction-Tuned, IT), vortrainiert (Pre-Trained, PT), feinabgestimmt (Fine-Tuned, FT), gemischt
(Mixed, Mix): Empfehlung: IT.
- Für Anweisungen abgestimmte (IT) Gemma-Varianten sind Modelle, die darauf trainiert wurden, auf eine Vielzahl von Anweisungen oder Anfragen in natürlicher Sprache zu reagieren. Diese Modellvarianten sind der beste Ausgangspunkt, da sie ohne weiteres Modelltraining auf Prompts reagieren können.
- Vortrainierte (PT) Gemma-Varianten sind Modelle, die darauf trainiert wurden, Inferenz in Bezug auf Sprache oder andere Daten zu treffen, aber nicht darauf trainiert wurden, menschlichen Anweisungen zu folgen. Diese Modelle erfordern zusätzliches Training oder Abstimmung, um Aufgaben effektiv ausführen zu können. Sie sind für Forscher oder Entwickler gedacht, die die Fähigkeiten des Modells und seiner Architektur untersuchen oder weiterentwickeln möchten.
- Feinabgestimmte (FT) Gemma-Varianten können als IT-Varianten betrachtet werden, sind aber in der Regel darauf trainiert, eine bestimmte Aufgabe auszuführen oder bei einem bestimmten Benchmark für generative KI gut abzuschneiden. Die PaliGemma-Variantenfamilie umfasst eine Reihe von FT-Varianten.
- Gemischte (Mix) Gemma-Varianten sind Versionen von PaliGemma-Modellen, die mit einer Vielzahl von Anweisungen für Anweisungen abgestimmt wurden und für den allgemeinen Gebrauch geeignet sind.
- Parameter: Empfehlung: Die kleinste verfügbare Anzahl. Im Allgemeinen gilt: Je mehr Parameter ein Modell hat, desto leistungsfähiger ist es. Für die Ausführung größerer Modelle sind jedoch größere und komplexere Rechenressourcen erforderlich, was die Entwicklung einer KI-Anwendung in der Regel verlangsamt. Wenn Sie noch nicht festgestellt haben, dass ein kleineres Gemma-Modell Ihre Anforderungen nicht erfüllt, wählen Sie eines mit einer geringen Anzahl von Parametern aus.
- Quantisierungsstufen : Empfehlung: Halbe Genauigkeit (16 Bit), außer für die Abstimmung. Die Quantisierung ist ein komplexes Thema, das sich darauf beschränkt, welche Größe und Genauigkeit der Daten und damit wie viel Arbeitsspeicher ein generatives KI-Modell für Berechnungen und die Generierung von Antworten verwendet. Nachdem ein Modell mit Daten mit hoher Genauigkeit trainiert wurde (in der Regel 32-Bit-Gleitkommadaten), können Modelle wie Gemma so geändert werden, dass sie Daten mit geringerer Genauigkeit verwenden, z. B. 16, 8 oder 4 Bit. Diese quantisierten Gemma-Modelle können je nach Komplexität der Aufgaben immer noch gute Ergebnisse erzielen, während sie deutlich weniger Rechen- und Arbeitsspeicherressourcen verwenden. Die Tools zum Abstimmen quantisierter Modelle sind jedoch begrenzt und möglicherweise nicht in Ihrem ausgewählten KI-Entwicklungs-Framework verfügbar. In der Regel müssen Sie ein Modell wie Gemma mit voller Genauigkeit abstimmen und das resultierende Modell dann quantisieren.
Eine Liste der wichtigsten von Google veröffentlichten Gemma-Modelle finden Sie unter Erste Schritte mit Gemma-Modellen, Liste der Gemma-Modelle.
Anfragen zur Generierung und Inferenz ausführen
Nachdem Sie ein KI-Ausführungs-Framework und eine Gemma-Variante ausgewählt haben, können Sie das Modell ausführen und es auffordern, Inhalte zu generieren oder Aufgaben zu erledigen. Weitere Informationen zum Ausführen von Gemma mit einem bestimmten Framework finden Sie in den Anleitungen im Abschnitt Framework auswählen.
Prompt-Formatierung
Für alle für Anweisungen abgestimmten Gemma-Varianten gelten bestimmte Anforderungen an die Prompt-Formatierung. Einige dieser Formatierungsanforderungen werden automatisch vom Framework verarbeitet, das Sie zum Ausführen von Gemma-Modellen verwenden. Wenn Sie jedoch Prompt-Daten direkt an einen Tokenizer senden, müssen Sie bestimmte Tags hinzufügen. Die Anforderungen an die Tagging können sich je nach verwendeter Gemma-Variante ändern. Informationen zur Prompt-Formatierung und zu Systemanweisungen für Gemma-Varianten finden Sie in den folgenden Anleitungen: