Gemma 4 è stato rilasciato con input di testo, audio e immagini e una finestra contestuale lunga fino a 256.000 token. Scopri di più

Esegui la generazione e le inferenze dei contenuti di Gemma

Quando vuoi eseguire un modello Gemma, devi prendere due decisioni chiave: 1) quale variante di Gemma vuoi eseguire e 2) quale framework di esecuzione dell'AI utilizzerai per eseguirla. Un problema fondamentale nel prendere queste due decisioni riguarda l'hardware che tu e i tuoi utenti avete a disposizione per eseguire il modello.

Questa panoramica ti aiuta a prendere queste decisioni e a iniziare a lavorare con i modelli Gemma. Ecco i passaggi generali per eseguire un modello Gemma:

Scegli un framework per l'esecuzione
Seleziona una variante di Gemma
Esegui richieste di generazione e inferenza

Scegli un framework

I modelli Gemma sono compatibili con un'ampia gamma di strumenti dell'ecosistema. La scelta di quello giusto dipende dall'hardware disponibile (GPU Cloud o laptop locale) e dalla preferenza dell'interfaccia (codice Python o applicazione desktop).

Utilizza la seguente tabella per identificare rapidamente lo strumento migliore per le tue esigenze:

Se desideri...	Framework consigliato	I migliori per
Eseguire localmente con un'interfaccia utente di chat	- LM Studio - Ollama	Principianti o utenti che desiderano un'esperienza simile a Gemini sul proprio laptop.
Eseguire in modo efficiente su Edge	- LiteRT-LM - llama.cpp - API MediaPipe LLM Inference - MLX	Inferenza locale ad alte prestazioni con risorse minime.
Creare/addestrare in Python	- Libreria Gemma per JAX - Hugging Face Transformers - Keras - PyTorch - Unsloth	Ricercatori e sviluppatori che creano applicazioni personalizzate o modelli di ottimizzazione.
Eseguire il deployment in produzione / enterprise	- Google Cloud Kubernetes Engine (GKE) - Google Cloud Run - Vertex AI - vLLM	Deployment cloud gestito e scalabile con sicurezza enterprise e supporto MLOps.

Dettagli framework

Di seguito sono riportate le guide per l'esecuzione dei modelli Gemma suddivise per ambiente di deployment.

1. Inferenza locale e desktop (alta efficienza)

Questi strumenti ti consentono di eseguire Gemma su hardware consumer (laptop, computer desktop) utilizzando formati ottimizzati (come GGUF) o acceleratori hardware specifici.

LM Studio: un'applicazione desktop che ti consente di scaricare e chattare con i modelli Gemma in un'interfaccia intuitiva. Non è necessario scrivere codice.
llama.cpp: una popolare porta open source di Llama (e Gemma) in C++ che viene eseguita in modo incredibilmente veloce su CPU e Apple Silicon.
LiteRT-LM: offre un'interfaccia a riga di comando (CLI) per eseguire modelli Gemma .litertlm ottimizzati su computer desktop (Windows, Linux, macOS), basati su LiteRT (in precedenza TFLite).
MLX: un framework progettato specificamente per il machine learning su Apple Silicon, perfetto per gli utenti Mac che desiderano prestazioni integrate.
Ollama: uno strumento per eseguire LLM open source in locale, spesso utilizzato per alimentare altre applicazioni.

2. Sviluppo Python (ricerca e ottimizzazione)

Framework standard per gli sviluppatori di AI che creano applicazioni, pipeline o modelli di addestramento.

Hugging Face Transformers: lo standard di settore per l'accesso rapido a modelli e pipeline.
Unsloth: una libreria ottimizzata per l'ottimizzazione di LLM. Ti consente di addestrare i modelli Gemma 2-5 volte più velocemente con una quantità di memoria notevolmente inferiore, il che rende possibile l'ottimizzazione su GPU consumer (ad es. livelli senza costi di Google Colab).
Keras / JAX / PyTorch: librerie principali per la ricerca sul deep learning e l'implementazione di architetture personalizzate.

3. Deployment mobile ed edge (sul dispositivo)

Framework progettati per eseguire LLM direttamente sui dispositivi degli utenti (Android, iOS, web) senza connettività internet, spesso utilizzando NPU (Neural Processing Unit).

LiteRT-LM: il framework completamente open source per lo sviluppo di LLM sul dispositivo che offre prestazioni massime e controllo granulare, con supporto diretto per l'accelerazione di CPU, GPU e NPU su Android e iOS.
API MediaPipe LLM Inference: il modo più semplice per integrare Gemma nelle app multipiattaforma. Offre un'API di alto livello che funziona su Android, iOS e web.

4. Deployment cloud e di produzione

Servizi gestiti per scalare l'applicazione a migliaia di utenti o accedere a una potenza di calcolo elevata.

Vertex AI: la piattaforma AI completamente gestita di Google Cloud. Ideale per le applicazioni enterprise che richiedono SLA e scalabilità.
Google Cloud Kubernetes Engine (GKE): per orchestrare i tuoi cluster di pubblicazione.
vLLM: un motore di inferenza e pubblicazione ad alta velocità effettiva ed efficiente in termini di memoria, spesso utilizzato nei deployment cloud.

Assicurati che il formato del modello Gemma di deployment previsto, ad esempio il formato integrato di Keras, Safetensors o GGUF, sia supportato dal framework scelto.

Seleziona una variante di Gemma

I modelli Gemma sono disponibili in diverse varianti e dimensioni, inclusi i modelli Gemma di base o principali e varianti di modelli più specializzati come PaliGemma e DataGemma, nonché molte varianti create dalla community di sviluppatori di AI su siti come Kaggle e Hugging Face. Se non sai da quale variante iniziare, seleziona l'ultimo modello Gemma core con ottimizzazione delle istruzioni (IT) con il numero di parametri più basso. Questo tipo di modello Gemma ha requisiti di calcolo ridotti ed è in grado di rispondere a un'ampia gamma di prompt senza richiedere ulteriore sviluppo.

Quando scegli una variante di Gemma, prendi in considerazione i seguenti fattori:

Gemma core e altre famiglie di varianti come PaliGemma, CodeGemma: consigliamo Gemma (core). Le varianti di Gemma oltre alla versione core hanno la stessa architettura del modello core e sono addestrate per ottenere prestazioni migliori in attività specifiche. A meno che la tua applicazione o i tuoi obiettivi non siano in linea con la specializzazione di una variante specifica di Gemma, è consigliabile iniziare con un modello Gemma core o di base.
Ottimizzazione delle istruzioni (IT), preaddestramento (PT), ottimizzazione (FT), misto (mix): consigliamo IT.
- Le varianti di Gemma con ottimizzazione delle istruzioni (IT) sono modelli che sono stati addestrati per rispondere a una serie di istruzioni o richieste in linguaggio naturale. Queste varianti di modello sono il punto di partenza ideale perché possono rispondere ai prompt senza ulteriore addestramento del modello.
- Le varianti di Gemma preaddestrate (PT) sono modelli che sono stati addestrati per fare inferenze sul linguaggio o su altri dati, ma non sono stati addestrati a seguire le istruzioni umane. Questi modelli richiedono ulteriore addestramento o ottimizzazione per poter eseguire le attività in modo efficace e sono destinati a ricercatori o sviluppatori che vogliono studiare o sviluppare le funzionalità del modello e della sua architettura.
- Le varianti di Gemma ottimizzate (FT) possono essere considerate varianti IT, ma in genere sono addestrate per eseguire un'attività specifica o ottenere buoni risultati in un benchmark di AI generativa specifico. La famiglia di varianti PaliGemma include una serie di varianti FT.
- Le varianti di Gemma miste (mix) sono versioni dei modelli PaliGemma che sono state ottimizzate con una serie di istruzioni e sono adatte all'uso generale.
Parametri: consigliamo il numero più piccolo disponibile. In generale, più parametri ha un modello, più è potente. Tuttavia, l'esecuzione di modelli più grandi richiede risorse di calcolo più grandi e complesse e in genere rallenta lo sviluppo di un'applicazione di AI. A meno che tu non abbia già stabilito che un modello Gemma più piccolo non è in grado di soddisfare le tue esigenze, scegli un modello con un numero ridotto di parametri.
Livelli di quantizzazione: consigliamo la precisione dimezzata (16 bit), tranne che per l'ottimizzazione. La quantizzazione è un argomento complesso che si riduce alla dimensione e alla precisione dei dati e, di conseguenza, alla quantità di memoria utilizzata da un modello di AI generativa per i calcoli e la generazione di risposte. Dopo che un modello è stato addestrato con dati ad alta precisione, in genere dati in virgola mobile a 32 bit, i modelli come Gemma possono essere modificati per utilizzare dati a precisione inferiore, ad esempio dimensioni di 16, 8 o 4 bit. Questi modelli Gemma quantizzati possono comunque ottenere buoni risultati, a seconda della complessità delle attività, utilizzando al contempo molte meno risorse di calcolo e memoria. Tuttavia, gli strumenti per l'ottimizzazione dei modelli quantizzati sono limitati e potrebbero non essere disponibili nel framework di sviluppo di AI scelto. In genere, devi ottimizzare un modello come Gemma con precisione completa, quindi quantizzare il modello risultante.

Per un elenco dei principali modelli Gemma pubblicati da Google, consulta le pagine Guida introduttiva ai modelli Gemma ed Elenco dei modelli Gemma.

Esegui richieste di generazione e inferenza

Dopo aver selezionato un framework di esecuzione dell'AI e una variante di Gemma, puoi iniziare a eseguire il modello e a richiedere di generare contenuti o completare attività. Per ulteriori informazioni su come eseguire Gemma con un framework specifico, consulta le guide collegate nella sezione Scegli un framework.

Formattazione dei prompt

Tutte le varianti di Gemma con ottimizzazione delle istruzioni hanno requisiti di formattazione dei prompt specifici. Alcuni di questi requisiti di formattazione vengono gestiti automaticamente dal framework che utilizzi per eseguire i modelli Gemma, ma quando invii i dati dei prompt direttamente a un tokenizer, devi aggiungere tag specifici e i requisiti di tagging possono variare a seconda della variante di Gemma che utilizzi. Consulta le seguenti guide per informazioni sulla formattazione dei prompt e sulle istruzioni di sistema delle varianti di Gemma: