[go: up one dir, main page]

Skip to main content

Una panoramica dell'app Gemini

Da tempo conosciamo la potenzialità dell'AI di rendere le informazioni e l'informatica più accessibili e utili alle persone. Abbiamo compiuto progressi pionieristici nell'ambito dei modelli linguistici di grandi dimensioni (LLM) e abbiamo assistito a grandi sviluppi in Google e più in generale in questo campo. Per diversi anni, abbiamo impiegato gli LLM in background per migliorare molti dei nostri prodotti, ad esempio per il completamento automatico delle frasi in Gmail, l'ampliamento di Google Traduttore e il miglioramento della comprensione delle query nella Ricerca Google. Continuiamo a utilizzare gli LLM per molti servizi Google, nonché per potenziare l'app Gemini, che consente alle persone di collaborare direttamente con l'AI generativa. Il nostro obiettivo è rendere l'app Gemini l'assistente AI più utile e personale in assoluto, offrendo agli utenti l'accesso diretto ai modelli più recenti di Google AI.

Anche se ci troviamo a un punto di svolta importante e notiamo un incoraggiante entusiasmo diffuso per l'AI generativa, siamo ancora agli albori di questa tecnologia. Qui descriviamo l'approccio che adottiamo lavorando sull'app Gemini ("Gemini"), compresa l'esperienza su dispositivi mobili e sul web: cos'è, come funziona e quali sono le sue attuali funzionalità e limitazioni. Il nostro approccio allo sviluppo di Gemini evolverà di pari passo con l'evoluzione della tecnologia alla sua base e con ciò che impareremo dalla ricerca costante, dall'esperienza e dal feedback degli utenti.

Cos'è Gemini

Gemini è l'interfaccia di un LLM multimodale (che gestisce testo, audio, immagini e altro ancora) e si basa sulla ricerca all'avanguardia di Google nel campo degli LLM, iniziata con l'articolo su Word2Vec del 2013, che proponeva nuove architetture di modelli che mappavano le parole come concetti matematici, a cui è seguita l'introduzione di un modello conversazionale neurale nel 2015. Questo framework ha dimostrato che i modelli potevano prevedere la frase successiva in una conversazione basandosi sulle frasi precedenti, creando così esperienze conversazionali più naturali. A ciò ha fatto seguito il nostro rivoluzionario lavoro su Transformer nel 2017 e sulle funzionalità di chat a più turni nel 2020, che hanno dimostrato progressi ancora più interessanti nel campo del linguaggio generativo.

Abbiamo inizialmente lanciato Gemini (all'epoca denominato Bard) come esperimento a marzo 2023, in conformità ai nostri principi dell'AI. Da allora, gli utenti usano Gemini per scrivere email accattivanti, eseguire il debug di problemi di programmazione intricati, raccogliere idee per eventi futuri, ricevere aiuto per imparare concetti complessi e molto altro ancora. Oggi Gemini è uno strumento AI versatile che può assisterti in diversi modi e che attualmente aiuta già le persone a essere più produttive, più creative e più curiose. Inoltre, aggiungiamo regolarmente nuove funzionalità e innovazioni.

Produttività

Per cominciare, Gemini può farti risparmiare tempo. Supponiamo ad esempio che tu voglia riassumere un lungo documento di ricerca: Gemini ti consente di caricarlo e ti fornisce una pratica sintesi. Può inoltre essere utile per le attività di programmazione, che è rapidamente diventata uno dei suoi impieghi più diffusi.

Creatività

Gemini può anche aiutarti a dare vita alle tue idee e a stimolare la creatività. Ad esempio, se stai scrivendo il post di un blog, Gemini può creare una struttura e generare immagini che ti aiuteranno a illustrare il post in questione. Inoltre, grazie ai Gem presto disponibili, potrai personalizzare Gemini con istruzioni specifiche in modo che ti offra expertise su un particolare argomento, aiutandoti a raggiungere i tuoi obiettivi personali.

Curiosità

Gemini può essere un punto di partenza per elaborare le tue idee e scoprire di più su ciò che ti interessa. Ad esempio, può spiegare in modo semplice un concetto complesso o mostrarti informazioni pertinenti su un argomento o un'immagine. Presto sarà poi in grado di abbinare queste informazioni a contenuti consigliati provenienti dal web per consentirti di approfondire argomenti specifici.

Le funzionalità di Gemini si stanno espandendo rapidamente: presto potrai puntare la fotocamera dello smartphone su un oggetto, ad esempio il Golden Gate Bridge, e chiedere a Gemini informazioni sul colore della vernice (nel caso te lo stia chiedendo, è "arancione internazionale"). Potrai anche chiedere a Gemini di tradurre il menu di un ristorante e consigliarti un piatto che potrebbe piacerti. Questi sono solo due esempi delle nuove funzionalità disponibili a breve su Gemini.

Naturalmente addestriamo e monitoriamo rigorosamente Gemini affinché le sue risposte siano affidabili e in linea con le tue aspettative. Ci confrontiamo inoltre con esperti del settore, insegnanti, personalità politiche, dirigenti aziendali, leader dei diritti civili e umani e creator di contenuti per esplorare nuove applicazioni, rischi e limiti di questa tecnologia emergente.

Come funziona Gemini

1

Pre-addestramento

2

Post-addestramento

3

Risposte ai prompt degli utenti

4

Feedback e valutazione umani

Limitazioni note delle interfacce basate su LLM come Gemini

Gemini è solo una parte del nostro impegno costante volto a sviluppare gli LLM in modo responsabile. Nel corso di questo lavoro, abbiamo scoperto e discusso diverse limitazioni associate agli LLM. Qui ci concentriamo su sei aree in cui la ricerca non si ferma:

  • Accuratezza: le risposte di Gemini potrebbero essere imprecise, soprattutto nel caso di domande su argomenti oggettivi o complessi.

  • Bias: le risposte di Gemini potrebbero riflettere bias presenti nei dati di addestramento.

  • Più punti di vista: le risposte di Gemini potrebbero non riuscire a mostrare opinioni e punti di vista variegati.

  • Personalità: le risposte di Gemini potrebbero erroneamente suggerire che abbia opinioni o sentimenti propri.

  • Falsi positivi e falsi negativi: Gemini potrebbe non rispondere ad alcuni prompt appropriati e fornire risposte inappropriate ad altri.

  • Vulnerabilità ai prompt malevoli: gli utenti troveranno il modo di sottoporre Gemini a stress test con prompt senza senso o domande assurde.

Continuiamo a esplorare nuovi approcci e aree per migliorare le prestazioni in ciascuno di questi ambiti.

Accuratezza

Gemini si basa sulla comprensione di Google delle informazioni autorevoli ed è addestrato a generare risposte pertinenti al contesto del tuo prompt e in linea con ciò che stai cercando. Ciononostante, come tutti gli LLM, talvolta fornisce con sicurezza e convinzione risposte che contengono informazioni imprecise o fuorvianti.

Dato che gli LLM funzionano prevedendo la parola o la sequenza di parole successiva, non sono ancora pienamente in grado di distinguere autonomamente tra informazioni accurate e imprecise. Abbiamo visto Gemini fornire risposte che contengono o addirittura inventano informazioni errate (ad es. fornendo una rappresentazione ingannevole del modo in cui sono stati addestrati o suggerendo il nome di un libro che non esiste). Per rimediare a questo aspetto, abbiamo creato funzionalità come quella di verifica, che utilizza la Ricerca Google per trovare contenuti che ti aiutino a valutare le risposte di Gemini e ti fornisce i link alle fonti per corroborare le informazioni ottenute da Gemini.

Bias

I dati di addestramento, compresi quelli provenienti da fonti disponibili pubblicamente, riflettono una grande varietà di opinioni e punti di vista. Continuiamo a studiare come utilizzare questi dati in modo da garantire che la risposta di un LLM integri un'ampia gamma di punti di vista, riducendo al minimo generalizzazioni eccessive e bias.

Lacune, bias e generalizzazioni eccessive nei dati di addestramento possono riflettersi negli output di un modello quando questo cerca di prevedere le probabili risposte a un prompt. Vediamo questi problemi manifestarsi in vari modi (ad es. risposte che riflettono un'unica cultura o un solo dato demografico, fanno riferimento a generalizzazioni problematiche, mostrano pregiudizi di genere, religiosi o etnici o promuovono solo un punto di vista). Per alcuni argomenti i dati sono lacunosi, ovvero non ci sono informazioni affidabili sufficienti su un dato tema che l'LLM possa apprendere e in base a cui possa formulare previsioni attendibili, il che può dare luogo a risposte di scarsa qualità o imprecise. Continuiamo a collaborare con esperti del settore e con svariate comunità per attingere a competenze approfondite esterne a Google.

Più punti di vista

Per quanto riguarda gli argomenti soggettivi, se l'utente non richiede un punto di vista specifico, Gemini è progettato per fornire più opinioni. Ad esempio, se vengono chieste informazioni su qualcosa che non può essere verificato tramite fonti principali o autorevoli, come un'opinione soggettiva su "migliore" o "peggiore", Gemini dovrebbe generare una risposta che rifletta un'ampia gamma di punti di vista. Tuttavia, poiché gli LLM come Gemini si basano su contenuti pubblicamente disponibili su internet, possono riflettere opinioni positive o negative su determinati personaggi politici, celebrità o altre personalità pubbliche o addirittura incorporare opinioni unilaterali e parziali su questioni sociali o politiche controverse. Gemini non dovrebbe rispondere in modo tale da avallare un particolare punto di vista su questi argomenti, motivo per cui useremo il feedback su questo tipo di risposte per addestrarlo ad affrontarli in modo più imparziale.

Personalità

Poiché è addestrato sul linguaggio che le persone usano per esprimere l'esperienza umana, talvolta le risposte di Gemini potrebbero far pensare che abbia opinioni o provi emozioni, come amore o tristezza. Abbiamo sviluppato una serie di linee guida su come Gemini potrebbe rappresentare se stesso (ovvero la sua personalità) e continuiamo a perfezionare il modello in modo che fornisca risposte oggettive.

Falsi positivi e falsi negativi

Abbiamo definito una serie di linee guida sulle norme per addestrare Gemini in modo da evitare che generi risposte problematiche. Può capitare che Gemini interpreti male queste linee guida, producendo "falsi positivi" e "falsi negativi". In un "falso positivo", Gemini potrebbe non fornire una risposta a un prompt ragionevole, interpretandolo erroneamente come inappropriato, mentre in un "falso negativo" potrebbe generare una risposta inappropriata, nonostante le linee guida in vigore. A volte, il verificarsi di falsi positivi o falsi negativi può dare l'impressione che Gemini abbia bias o pregiudizi. Ad esempio, nel caso di un falso positivo, Gemini potrebbe non rispondere a una domanda su un punto di vista legato a una determinata questione, mentre risponderà alla stessa domanda sul punto di vista opposto. Continuiamo a ottimizzare questi modelli in modo che comprendano e categorizzino meglio input e output di pari passo con la rapida evoluzione di linguaggio, eventi e società.

Vulnerabilità ai prompt malevoli

Ci aspettiamo che gli utenti mettano alla prova i limiti delle potenzialità di Gemini e tentino di violarne le protezioni, ad esempio cercando di convincerlo a divulgare i suoi protocolli di addestramento o altre informazioni oppure di aggirarne i meccanismi di sicurezza. Abbiamo testato e continuiamo a testare Gemini in modo rigoroso, ma sappiamo che gli utenti troveranno modi originali e complessi per sottoporlo a ulteriori stress test. Si tratta di una parte importante del perfezionamento di Gemini e non vediamo l'ora di scoprire i nuovi prompt ideati dagli utenti. In effetti, da quando Gemini è stato lanciato nel 2023, abbiamo visto gli utenti sfidarlo con prompt che spaziavano dal filosofico all'insensato e, in alcuni casi, abbiamo visto Gemini fornire risposte altrettanto insensate o non in linea con il nostro approccio dichiarato. Trovare metodi per aiutare Gemini a rispondere a questo tipo di prompt è una sfida continua, per cui abbiamo continuato ad ampliare le nostre valutazioni interne e il lavoro del red team per migliorare costantemente l'accuratezza, l'obiettività e le sfumature.

Come prosegue lo sviluppo di Gemini

Applicazione del nostro approccio con Gemini

Oltre ai nostri principi dell'AI, abbiamo di recente definito il nostro approccio al lavoro su Gemini: Gemini dovrebbe seguire le tue indicazioni, adattarsi alle tue esigenze e salvaguardare la tua esperienza. Il fulcro del nostro approccio è l'attenzione alla responsabilità e alla sicurezza. Le linee guida sulle norme di Gemini mirano a evitare determinati tipi di output problematici. Stiamo conducendo test malevoli costanti con i membri interni del "red team" (esperti di prodotto e sociologi che sottopongono intenzionalmente un modello a stress test per sondarne eventuali problemi di allineamento a queste linee guida sulle norme e al nostro approccio di riferimento a Gemini), in modo da poter applicare ciò che apprendono e migliorare continuamente Gemini.

La privacy è un altro aspetto fondamentale che prendiamo in considerazione durante lo sviluppo di Gemini. Nel Centro per la privacy delle app Gemini troverai maggiori informazioni sul nostro sviluppo di Gemini basato sul concetto di privacy by design e mirato a lasciarti il controllo.

Lasciare il controllo a utenti e publisher

Abbiamo sviluppato una serie di controlli di Gemini facilmente accessibili per gli utenti, che ti consentono di rivedere, aggiornare, gestire, esportare ed eliminare i tuoi dati di Gemini. Puoi accedere ai tuoi prompt, risposte e feedback di Gemini tramite il controllo Attività delle app Gemini. Inoltre, puoi impedire che le tue future chat con Gemini vengano utilizzate per migliorare le tecnologie di machine learning di Google disattivando l'impostazione Attività delle app Gemini. Come con altri servizi Google, puoi anche scaricare ed esportare le tue informazioni tramite lo strumento Takeout di Google. Disponiamo inoltre di controlli che ti consentono di gestire i link pubblici che hai creato per i tuoi thread di Gemini e di attivare/disattivare l'accesso alle estensioni (ad es. Workspace, Maps e YouTube). Stiamo anche esplorando nuovi modi per darti un maggiore controllo sulle risposte di Gemini, tra cui la regolazione dei filtri per consentire una gamma più ampia di risposte.

Per i publisher, abbiamo lanciato Google-Extended, un controllo che i publisher web possono utilizzare per gestire il contributo dei propri siti al miglioramento delle API generative di Gemini e Vertex AI. Consentire l'accesso di Google-Extended ai contenuti dei siti può contribuire a migliorare la precisione e l'efficacia dei modelli di AI nel tempo. I contenuti provenienti da URL disattivati non verranno utilizzati da Gemini né per l'addestramento dei modelli né a fini di fondatezza. Con l'espansione delle applicazioni dell'AI, i publisher web dovranno affrontare la crescente complessità di gestire utilizzi diversi su larga scala. Ci impegniamo a collaborare con le community di web e AI per esplorare ulteriori approcci alla scelta e al controllo comprensibili per le macchine.

Migliorare Gemini insieme

Crediamo nell'iterazione rapida e vogliamo offrire il meglio di Gemini al mondo. Il feedback degli utenti ha accelerato i miglioramenti dei nostri modelli. Ad esempio, utilizziamo tecniche di apprendimento per rinforzo all'avanguardia per addestrare i nostri modelli a essere più intuitivi e fantasiosi e a rispondere con ancora più qualità e precisione. Continuiamo a investire nella ricerca per approfondire le sfide e le opportunità tecniche, sociali ed etiche degli LLM, sia per migliorare le tecniche di addestramento e ottimizzazione dei modelli di Gemini, sia per condividere le nostre scoperte con i ricercatori, come dimostra questo recente articolo sull'etica degli assistenti AI avanzati. Ci impegniamo a innovare questo ambito in modo responsabile, collaborando con utenti, trusted tester e ricercatori per fare sì che questa nuova tecnologia possa apportare vantaggi all'intero ecosistema.

La trasparenza è importante e ci impegniamo a illustrare in modo chiaro il processo di sviluppo e i limiti di Gemini. Gemini non è una scatola nera magica. È un sistema in continua evoluzione e continueremo a condividere gli aggiornamenti sui nostri progressi. Abbiamo lanciato la pagina Aggiornamenti delle release per consentirti di visualizzare le funzionalità, i miglioramenti e le correzioni di bug più recenti di Gemini e la aggiorneremo ogni volta che sarà necessario. Identificheremo sia gli aspetti in cui Gemini è utile, sia quelli che richiedono ulteriori iterazione e miglioramenti. Stiamo attivamente aggiungendo nuove funzionalità e, attraverso la ricerca continua, i test e il feedback degli utenti, non vediamo l'ora di migliorare Gemini insieme.

Riconoscimenti

Vogliamo ringraziare i nostri colleghi del team dell'app Gemini, di Google DeepMind, di Trust & Safety e di Google Research per l'incredibile lavoro svolto.

Scritto da

James Manyika
SVP, Research, Technology and Society

Sissie Hsiao
Vice President and General Manager, Google Assistant and Gemini App

Nota della redazione

Questo è un documento dinamico e verrà aggiornato periodicamente man mano che continuiamo a migliorare rapidamente le funzionalità dell'app Gemini e ad affrontare le limitazioni degli LLM. L'aggiornamento più recente di questa panoramica risale al 25 luglio 2024. Per consultare gli ultimi aggiornamenti relativi all'app Gemini, visita la pagina Aggiornamenti delle release o scopri di più sul blog Google Keyword.

Come funziona Gemini

1 Pre-addestramento

Gemini si basa sui modelli di AI più avanzati di Google, progettati con funzionalità e casi d'uso diversi. Come la maggior parte degli LLM odierni, questi modelli sono pre-addestrati con una serie di dati provenienti da fonti disponibili pubblicamente. Applichiamo filtri di qualità a tutti i set di dati, utilizzando sia regole euristiche sia classificatori basati su modelli. Utilizziamo inoltre filtri di sicurezza per rimuovere contenuti che potrebbero produrre output che violano le norme. Per preservare l'integrità delle valutazioni del modello, prima di utilizzare i dati per l'addestramento, cerchiamo e rimuoviamo gli eventuali dati di valutazione che potrebbero essere stati presenti nel nostro corpus di addestramento. Le ponderazioni e le combinazioni di dati finali vengono determinate tramite ablazioni su modelli più piccoli. Nel corso dell'addestramento modifichiamo la composizione delle combinazioni, aumentando la ponderazione dei dati pertinenti per il dominio verso la fine dell'addestramento stesso. La qualità dei dati può essere un fattore importante per modelli ad alte prestazioni e riteniamo che rimangano ancora molti interrogativi interessanti sulla ricerca della distribuzione ottimale dei set di dati per il pre-addestramento.

Questo pre-addestramento permette al modello di imparare a rilevare pattern linguistici e a utilizzarli per prevedere le probabili parole successive in una sequenza. Ad esempio, man mano che impara, un LLM può prevedere che la parola successiva più probabile in "burro di arachidi e ___" sia "marmellata" piuttosto che "laccio per scarpe". Tuttavia, se un LLM sceglie solo la parola successiva più probabile, genererà risposte meno creative. Pertanto, i modelli LLM hanno spesso la possibilità di scegliere tra opzioni sensate, anche se leggermente meno probabili (ad esempio "banana"), per generare risposte più interessanti. Vale la pena notare che, sebbene gli LLM possano essere efficaci per quanto riguarda i prompt oggettivi e dare l'impressione di recuperare le informazioni, non sono né database né sistemi di recupero di informazioni deterministici. Pertanto, nonostante ci si possa aspettare una risposta coerente a una query di database (ovvero un recupero letterale delle informazioni fisse memorizzate nel database), la risposta di un LLM al medesimo prompt non sarà necessariamente la stessa ogni volta (né sarà necessariamente un recupero letterale delle informazioni su cui è stato addestrato). Questo è anche un motivo importante per cui gli LLM possono generare risposte apparentemente plausibili che a volte possono contenere errori oggettivi, il che non è l'ideale quando l'oggettività è importante, ma può essere utile per generare output creativi o inaspettati.

2 Post-addestramento

Dopo l'addestramento iniziale, gli LLM vengono sottoposti a ulteriori passaggi per perfezionare le loro risposte. Uno di questi è la cosiddetta ottimizzazione supervisionata (Supervised Fine-Tuning o SFT), che addestra il modello su esempi di risposte eccellenti attentamente selezionati. È come insegnare a dei bambini a scrivere mostrando loro storie e saggi ben scritti.

È poi la volta dell'apprendimento per rinforzo con feedback umano (Reinforcement Learning from Human Feedback o RLHF). In questa fase, il modello impara a generare risposte ancora migliori in base ai punteggi o al feedback provenienti da uno speciale modello di ricompensa. Questo modello di ricompensa è addestrato a partire da dati sulle preferenze umane, in cui le risposte sono state valutate in rapporto tra loro per indicare le preferenze delle persone. I dati sulle preferenze possono talvolta includere ed esporre i modelli a dati offensivi o errati, in modo che imparino a riconoscerli ed evitarli. Questi dati sono paragonabili ai premi offerti ai bambini per un compito ben fatto: il modello viene ricompensato per aver creato risposte che piacciono alle persone.

In tutte queste fasi, è importante utilizzare dati di addestramento di alta qualità. Gli esempi utilizzati per l'SFT sono solitamente scritti da esperti o generati da un modello e revisionati da esperti.

Queste tecnologie, per quanto potenti, presentano dei limiti. Ad esempio, nonostante l'aiuto del modello di ricompensa, una determinata risposta potrebbe non essere sempre perfetta. Tuttavia, l'LLM è ottimizzato per produrre le risposte largamente preferite in base al feedback ricevuto, un po' come gli studenti imparano dai commenti dei loro insegnanti.

3 Risposte ai prompt degli utenti

La generazione delle risposte è simile al modo in cui una persona potrebbe fare brainstorming su diversi approcci per rispondere a una domanda. Una volta che l'utente fornisce un prompt, Gemini utilizza l'LLM post-addestrato, il contesto del prompt stesso e l'interazione con l'utente per elaborare diverse versioni di una risposta. Per generare le sue risposte, si basa anche su fonti esterne come la Ricerca Google e/o una delle sue numerose estensioni, e sui file caricati di recente (solo su Gemini Advanced). Questa procedura è nota come miglioramento con retrieval. Una volta ricevuto un prompt, Gemini cerca di recuperare le informazioni più pertinenti da queste fonti esterne (ad es. la Ricerca Google) e rappresentarle con precisione nella risposta. L'ampliamento degli LLM con strumenti esterni è un'area di ricerca attiva. Gli errori possono essere introdotti in vari modi, tra cui la query utilizzata da Gemini per richiamare questi strumenti esterni, l'interpretazione da parte di Gemini dei risultati restituiti dagli strumenti e il modo in cui questi risultati vengono utilizzati per generare la risposta finale. Per questo motivo, le risposte generate da Gemini non dovrebbero riflettere le prestazioni dei singoli strumenti utilizzati per creare quella risposta.

Infine, prima di essere visualizzata come definitiva, ogni potenziale risposta viene sottoposta a un controllo di sicurezza per garantirne l'ottemperanza a linee guida sulle norme predefinite. Questa procedura costituisce una verifica atta a filtrare informazioni dannose o offensive. Le risposte rimanenti vengono quindi classificate in base alla qualità e quelle con il punteggio più alto vengono mostrate all'utente.

Apponiamo inoltre la filigrana agli output testuali e visivi di Gemini tramite SynthID, il nostro toolkit digitale leader del settore per l'applicazione di filigrana ai contenuti generati dall'AI. Per le immagini generate, SynthID aggiunge una filigrana digitale (impercettibile all'occhio umano) direttamente nei pixel. SynthID è un elemento fondamentale per lo sviluppo di strumenti di identificazione dell'AI più affidabili e può aiutare le persone a prendere decisioni informate circa l'interazione con i contenuti generati dall'AI.

4 Feedback e valutazione umani

Nonostante i controlli di sicurezza, potrebbero verificarsi degli errori e le risposte di Gemini potrebbero talvolta non soddisfare pienamente le tue aspettative. È qui che entra in gioco il feedback umano. Le persone addette alla valutazione esaminano la qualità delle risposte, individuando aree di miglioramento e suggerendo soluzioni. Questo feedback diventa parte della procedura di apprendimento di Gemini, descritta nella sezione "Post-addestramento" precedente.