[go: up one dir, main page]

Skip to main content

En oversikt over Gemini-appen

Vi har lenge sett at AI har potensial til å gjøre informasjon og databehandling mer tilgjengelig og nyttig for folk. Vi har gjort banebrytende fremskritt innenfor store språkmodeller (SSM-er) og har opplevd stor fremgang både i Google og i bredere forstand. I flere år har vi brukt SSM-er i bakgrunnen til å forbedre mange av produktene våre, for eksempel autofullføring av setninger i Gmail, videreutvikling av Google Oversetter og som et hjelpemiddel for å forstå søk bedre i Google Søk. Vi fortsetter å bruke SSM-er i mange Google-tjenester og som grunnlag for Gemini-appen, slik at folk kan samarbeide direkte med generativ AI. Vi vil at Gemini-appen skal være den nyttigste og mest personlige AI-assistenten, som gir brukerne direkte tilgang til Googles nyeste AI-modeller.

Selv om vi er ved et viktig skjæringspunkt og den generelle begeistringen for generativ AI er oppmuntrende, er denne teknologien fortsatt på et tidlig stadium. Denne forklaringen oppsummerer hvordan vi jobber med Gemini-appen («Gemini»), inkludert mobil- og nettopplevelsen – hva den er, hvordan den virker, samt funksjonalitet og begrensninger. Metodene for å utvikle Gemini endrer seg i takt med den underliggende teknologien og det vi lærer gjennom forskning, erfaringer og tilbakemeldinger fra brukere.

Hva er Gemini?

Gemini er et grensesnitt for en multimodal SSM (den håndterer tekst, lyd, bilder med mer). Gemini er basert på Googles banebrytende forskning på SSM-er, som begynte med artikkelen om Word2Vec i 2013. Her presenterte vi nye modellarkitekturer med kartlegging av ord som matematiske konsepter, etterfulgt av introduksjonen av en nevral samtalemodell i 2015. Dette rammeverket demonstrerte hvordan modeller kunne forutsi neste setning i en samtale basert på foregående setninger, noe som førte til mer naturlige samtalebaserte funksjoner. Dette ble etterfulgt av et gjennombrudd i arbeidet vårt med Transformer i 2017 og funksjonalitet for chatsamtaler i 2020, som demonstrerte enda mer lovende fremdrift innenfor generativt språk.

Vi lanserte opprinnelig Gemini (den gang kalt Bard) som et eksperiment i mars 2023, i samsvar med AI-prinsippene våre. Siden den gang har brukere fått hjelp av Gemini til å skrive overbevisende e-poster, feilsøke vanskelige kodeproblemer, idémyldre i forkant av begivenheter, få hjelp til å lære vanskelige konsepter og mye mer. I dag er Gemini et allsidig AI-verktøy som kan hjelpe deg på mange måter. Vi ser allerede at Gemini hjelper folk med å være mer produktive, kreative og nysgjerrige, og vi legger til nye funksjoner og innovasjoner med jevne mellomrom.

Produktivitet

For det første kan du spare tid med Gemini. Tenk deg for eksempel at du trenger å få oppsummert et langt forskningsdokument. Med Gemini kan du laste det opp og få en nyttig syntese. Gemini kan også hjelpe deg med programmeringsoppgaver, og koding har på kort tid blitt et av de mest populære bruksområdene.

Kreativitet

Gemini kan også hjelpe deg med å gjøre idéene dine om til virkelighet og gi deg en kreativ gnist. Hvis du for eksempel skal skrive et blogginnlegg, kan Gemini lage en disposisjon og generere bilder som kan illustrere innlegget ditt. Og snart kommer Gemer, som du kan bruke til å tilpasse Gemini med spesifikke instruksjoner, slik at den kan opptre som innholdsekspert og hjelpe deg med å oppnå personlige mål.

Nysgjerrighet

Gemini kan være et utgangspunkt for å utforske idéene dine og ting du vil finne ut mer om. Den kan for eksempel forklare et komplekst konsept enklere eller grave frem relevant kunnskap om et emne eller bilde. Og snart kan den kombinere denne typen innsikt med anbefalt innhold fra nettet for å finne ut mer om spesifikke emner.

Funksjonaliteten i Gemini utvikles raskt. Snart kan du rette telefonkameraet mot et objekt, for eksempel Golden Gate Bridge, og spørre Gemini hvilken farge det er («internasjonal oransje», hvis du lurte). Og du kan be Gemini hjelpe deg med å lese restaurantmenyer på andre språk og anbefale retter du kanskje kommer til å like. Dette er bare to eksempler på de nye funksjonene Gemini snart får.

Vi lærer selvfølgelig opp Gemini nøye og følger med på resultatene, slik at den gir svar som mest sannsynlig er pålitelige og i overensstemmelse med forventningene dine. Vi snakker også med bransjeeksperter, lærere, politiske beslutningstakere, bedriftsledere, borger- og menneskerettighetsledere samt innholdsskapere for å utforske nye bruksområder, risikoer og begrensninger i denne fremadstormende teknologien.

Slik fungerer Gemini

1

Forhåndsopplæring

2

Etteropplæring

3

Svar på brukerforespørsler

4

Tilbakemeldinger og evalueringer fra mennesker

Kjente begrensninger for SSM-baserte grensesnitt som Gemini

Gemini er bare en del av det kontinuerlige arbeidet vårt med å utvikle SSM-er på en ansvarlig måte. Underveis i dette arbeidet har vi oppdaget og diskutert flere begrensninger knyttet til SSM-er. Her fokuserer vi på seks områder for videre forskning:

  • Nøyaktighet: Gemini kan gi unøyaktige svar, spesielt når den blir spurt om komplekse eller faktabaserte emner.

  • Skjevhet: Svarene fra Gemini kan gjenspeile skjevheter i opplæringsdataene.

  • Flere perspektiver: Det kan hende at svarene fra Gemini ikke dekker flere ulike synspunkter.

  • Persontype: Svarene fra Gemini kan feilaktig gi inntrykk av at den har personlige meninger eller følelser.

  • Falskt positive og falskt negative klassifiseringer: Det kan hende at Gemini ikke svarer på enkelte passende forespørsler og gir upassende svar på andre.

  • Sårbarhet for fiendtlige forespørsler: Brukere kommer til å finne måter å stressteste Gemini på gjennom meningsløse forespørsler eller spørsmål som sjelden forekommer i den virkelige verden.

Vi fortsetter å utforske nye tilnærminger og finne ut hvor det er rom for bedre resultater på hvert av disse områdene.

Nøyaktighet

Gemini er fundamentert på Googles forståelse av autoritativ informasjon og er lært opp til å generere svar som er relevante i konteksten for forespørselen din, og som stemmer med det du er ute etter. Men i likhet med enhver SSM kan Gemini noen ganger generere overbevisende og selvsikre svar som i realiteten inneholder unøyaktig eller villedende informasjon.

Siden SSM-er fungerer ved å forutsi neste ord eller sekvens av ord, er de foreløpig ikke fullstendig i stand til å skille mellom nøyaktig og unøyaktig informasjon på egen hånd. Vi har sett Gemini presentere svar som inneholder unøyaktig eller til og med fabrikert informasjon (f.eks. feilaktige fremstillinger av hvordan den ble opplært, eller forslag til bøker som ikke finnes). Derfor har vi laget funksjoner som «dobbeltsjekk», som bruker Google Søk til å finne innhold som hjelper deg med å vurdere svarene fra Gemini, og som gir deg linker til kilder som underbygger informasjonen fra Gemini.

Skjevhet

Opplæringsdata, også fra offentlig tilgjengelige kilder, gjenspeiler et mangfold av perspektiver og meninger. Vi fortsetter å forske på hvordan vi kan bruke disse dataene på en måte som sikrer at svaret fra SSM-er fletter inn et bredt spenn av synspunkter, samtidig som unøyaktige overgeneraliseringer og skjevheter minimaliseres.

Hull, skjevheter og overgeneraliseringer i opplæringsdata kan komme til uttrykk i svarene fra modellene når de prøver å forutsi sannsynlige svar på en forespørsel. Vi ser at disse problemene fremkommer på en rekke ulike måter, for eksempel i svar som bare tar hensyn til én kultur eller demografi, refererer til problematiske overgeneraliseringer, gjenspeiler kjønnsmessige, religiøse eller etniske skjevheter eller kun promoterer ett synspunkt. For noen emner er det hull i dataene – det finnes med andre ord ikke nok pålitelig informasjon om visse emner til at SSM-en kan lære seg om dem og deretter gjøre gode forutsigelser – noe som kan føre til svar av lav kvalitet eller unøyaktige svar. Vi fortsetter å samarbeide med domeneeksperter og et mangfold av ulike samfunnsgrupper for å tilegne oss den omfattende ekspertisen som finnes utenfor Google.

Flere perspektiver

For subjektive emner er Gemini designet for å gi brukere flere perspektiver hvis de ikke ber om noe spesifikt synspunkt. Hvis Gemini for eksempel blir spurt om informasjon om noe som ikke kan bekreftes av fakta fra primærkilder eller autoritative kilder – for eksempel en subjektiv mening om hva som er «best» eller «verst» – skal Gemini svare på en måte som gjenspeiler et bredt spenn av synspunkter. Men siden SSM-er som Gemini læres opp med innhold som er offentlig tilgjengelig på internett, kan de gjenspeile de positive eller negative ståstedene til spesifikke politikere, kjendiser eller andre offentlige personer, og det kan til og med hende de kun tar hensyn til én side av kontroversielle sosiale eller politiske problemstillinger. Gemini skal ikke svare på en måte som støtter bestemte synspunkter om disse emnene, og vi bruker tilbakemeldinger om denne typen svar for å lære opp Gemini til å håndtere dem bedre.

Persontype

Gemini kan noen ganger generere svar som antyder at den har meninger eller følelser, som kjærlighet eller sorg, siden den er lært opp på språk som mennesker bruker, for å gjenspeile opplevelsen av å snakke med en person. Vi har utviklet et sett med retningslinjer for hvordan Gemini kan fremstille seg selv (dvs. Geminis persontype), og vi fortsetter å finstemme modellen for å gi objektive svar.

Falskt positive/negative klassifiseringer

Vi har laget et sett med retningslinjer for å gjøre det lettere å lære opp Gemini og unngå generering av problematiske svar. Gemini kan noen ganger feiltolke disse retningslinjene og produsere «falskt positive» og «falskt negative» klassifiseringer. En «falskt positiv» klassifisering kan føre til at Gemini ikke svarer på en rimelig forespørsel fordi den feiltolker forespørselen som upassende, og en «falskt negativ» klassifisering kan føre til at Gemini genererer et upassende svar som ikke er i tråd med retningslinjene den skal følge. Noen ganger kan falskt positive eller falskt negative klassifiseringer gi inntrykk av skjevheter i Gemini. En falskt positiv klassifisering kan for eksempel gjøre at Gemini ikke svarer på spørsmål om den ene siden av en sak, selv om den gjerne svarer på det samme spørsmålet om den andre siden av saken. Vi fortsetter å justere disse modellene for å forstå og kategorisere forespørsler og svar i takt med den raske utviklingen i språk, begivenheter og samfunnet.

Sårbarhet for fiendtlige forespørsler

Vi forventer at brukere tester grensene for hva Gemini kan gjøre, og forsøker å bryte gjennom beskyttelseslagene, blant annet ved å prøve å få den til å avsløre opplæringsprotokollene sine eller annen informasjon, eller ved å prøve å omgå sikkerhetsmekanismene. Vi har testet og fortsetter å teste Gemini omhyggelig, men vi vet at brukere kommer til å finne unike, komplekse måter å stressteste den ytterligere på. Dette er en viktig del av arbeidet med å finstemme Gemini, og vi ser frem til å se hvilke nye forespørsler brukere kan finne på. Siden Gemini ble lansert i 2023, har vi sett brukere utfordre den med alle slags forespørsler, fra det filosofiske til det meningsløse, og i noen tilfeller har vi sett Gemini gi svar som er like meningsløse, eller som ikke er i tråd med den uttalte tilnærmingen vår. Vi jobber kontinuerlig med hvordan vi kan hjelpe Gemini med å svare på denne typen forespørsler, og vi har fortsatt å utvide interne evalueringer og red-team-øvelser med mål om kontinuerlige forbedringer i nøyaktighet, objektivitet og nyansering.

Hvordan fortsetter utviklingen av Gemini?

Tilnærmingen vår til Gemini i praksis

I tillegg til AI-prinsippene våre har vi nylig beskrevet tilnærmingen vår til arbeidet vårt med Gemini: Den skal følge instruksjonene dine, tilpasse seg behovene dine og beskytte opplevelsen din. Kjernen i tilnærmingen vår er et fokus på ansvarlighet og trygghet. Målet med retningslinjene for Gemini er å unngå visse typer problematiske svar. Vi gjennomfører fortløpende fiendtlig testing med interne «red team»-medlemmer – produkteksperter og samfunnsfaglige forskere som med vilje stresstester en modell for å avdekke tilfeller av brudd på retningslinjene og visjonen vår for Gemini – slik at vi kan dra nytte av lærdommen deres og fortsette å gjøre Gemini bedre.

Personvern er også viktig når vi utvikler Gemini. Hjelpesenteret for personvern i Gemini-apper inneholder mer informasjon om hvordan vi utvikler Gemini med innebygd personvern, slik at du har kontrollen.

Bruker- og publisistkontroll

Vi har laget en rekke lett tilgjengelige kontroller du kan bruke for å gå gjennom, oppdatere, administrere, eksportere og slette Gemini-dataene dine. Du kan se og gjennomgå Gemini-forespørslene, -svarene og -tilbakemeldingene dine i aktivitetslagringen for Gemini-apper. I tillegg kan du forhindre at de fremtidige Gemini-chattene dine brukes til å forbedre Googles maskinlæringsteknologi, ved å slå av innstillingen for aktivitet i Gemini-apper. Og som på andre Google-tjenester kan du også laste ned og eksportere informasjonen din gjennom Googles Takeout-verktøy. Vi har også kontroller du kan bruke for å administrere offentlige linker du har laget til Gemini-trådene dine, samt kontroller du kan bruke for å slå av/på tilgang til utvidelser (f.eks. Workspace, Maps og YouTube). Vi utforsker også hvordan du kan få bedre kontroll over svarene fra Gemini, blant annet ved å justere filtrene slik at du kan få et bredere spenn av svar.

For publisister har vi lansert Google-Extended, en kontroll som nettpublisister kan bruke for å administrere om nettstedene deres skal bidra til å forbedre Gemini og generative Vertex AI-API-er. Nettsteder som gir Google-Extended-tilgang til innholdet sitt, kan bidra til å gjøre AI-modeller mer nøyaktige og funksjonsrike over tid. I tillegg til at vi ikke bruker innholdet fra bortvalgte nettadresser til modellopplæring, bruker Gemini heller ikke slikt innhold til empirisk baserte slutninger. Etter hvert som AI får flere bruksområder, kommer nettpublisister til å oppleve den økende kompleksiteten i å administrere ulike bruksmønstre i stor skala, og vi er opptatt av å samarbeide med nettet og AI-fellesskapene om å utforske mer maskinlesbare tilnærminger til valgfrihet og kontroll.

Sammen gjør vi Gemini bedre

Vi mener det er viktig å iterere raskt og å gi verden det beste Gemini har å by på. Tilbakemeldinger fra brukere har akselerert forbedringer i modellene våre. Vi bruker for eksempel moderne teknikker for forsterkende læring til å lære modellene våre å være enda mer intuitive og kreative, slik at de gir mer nøyaktige svar av enda høyere kvalitet. Vi fortsetter å investere i forskning for å finne ut mer om de tekniske, sosiale og etiske utfordringene og mulighetene knyttet til SSM-er. Dette gjør vi både for å forbedre teknikkene våre for opplæring og finstemming av Gemini-modellene og for å dele lærdommen vår med forskere – for eksempel gjennom denne nylige artikkelen om etiske problemstillinger rundt avanserte AI-assistenter (Ethics of Advanced AI Assistants). Vi er opptatt av ansvarlig innovasjon på dette feltet, og vi samarbeider med brukere, betrodde testere og forskere for å finne ut hvordan denne nye teknologien kan komme hele økosystemet til nytte.

Åpenhet er viktig, og vi er opptatt av å være åpne om utviklingsprosessen for Gemini og hvilke begrensninger den har. Gemini er ingen magisk, svart boks – den utvikler seg hele tiden, og vi kommer til å fortsette å fortelle om fremdriften vår. Vi har lansert en side med versjonsoppdateringer, slik at du kan se de nyeste funksjonene, forbedringene og feilrettingene i Gemini, og vi oppdaterer denne oversikten fortløpende. Vi jobber med å identifisere både områder der Gemini er nyttig og hjelpsom, og hvor vi må fortsette å iterere for å gjøre den bedre. Nye funksjoner legges til aktivt, og gjennom pågående forskning, testing og tilbakemeldinger fra brukerne ser vi frem til å forbedre Gemini sammen.

Anerkjennelser

Vi anerkjenner og verdsetter det fantastiske arbeidet som er utført av kollegaene våre i Gemini-app-teamet, Google DeepMind, Trust & Safety, samt Google Research.

Skrevet av

James Manyika
SVP, Research, Technology and Society

Sissie Hsiao
Vice President og General Manager, Google Assistent og Gemini-appen

Redaktørens merknad

Dette er et levende dokument som oppdateres med jevne mellomrom etter hvert som vi fortsetter å forbedre Gemini-appens funksjonalitet i et høyt tempo og håndterer de iboende begrensningene i SSM-er. Denne oversikten ble sist oppdatert 25. juli 2024. For å lese om de nyeste oppdateringene i Gemini-appen, gå til loggen for utgivelsesoppdateringer, eller les mer i Google Keyword-bloggen.

Slik fungerer Gemini

1 Forhåndsopplæring

Gemini er basert på Googles mest funksjonsrike AI-modeller og er laget med varierende funksjonalitet og bruksområder. I likhet med de fleste SSM-er i dag er disse modellene forhåndsopplært med en rekke data fra offentlig tilgjengelige kilder. Vi bruker kvalitetsfiltre på alle datasett ved å bruke både heuristiske regler og modellbaserte klassifikatorer. Vi utfører også trygghetsfiltrering for å fjerne innhold som har høy sannsynlighet for å produsere svar som bryter retningslinjene. For å opprettholde integriteten til modellevalueringene søker vi etter og fjerner eventuelle evalueringsdata fra opplæringskorpuset vårt før vi bruker dataene til opplæring. De endelige datablandingene og -vektene fastslås via ablasjoner på mindre modeller. Vi utfører opplæringen i flere faser for å endre blandingssammensetningen underveis i opplæringen – slik at vektingen for domenerelevante data økes mot slutten av opplæringen. Datakvalitet kan være en viktig faktor for modeller med høy ytelse, og vi tror det fortsatt gjenstår mange interessante spørsmål knyttet til den optimale fordelingen av datasett til forhåndsopplæring.

Gjennom denne forhåndsopplæringen kan modellen lære å kjenne igjen mønstre i språk og bruke dem for å anslå neste sannsynlige ord i en sekvens. Etter hvert som en SSM lærer, kan den for eksempel forutsi at neste ord i frasen «makrell i ___» har høyere sannsynlighet for å være «tomat» enn «skolisse». Men hvis en SSM alltid bare velger ordene med høyest sannsynlighet, fører det til mindre kreative svar. Derfor får SSM-er ofte fleksibilitet til å velge blant rimelige, men noe mindre sannsynlige valg (f.eks. «lefse») for å generere mer interessante svar. Det er verdt å vite at selv om SSM-er kan gi gode svar på faktabaserte forespørsler og gi inntrykk av at de henter informasjon, er de verken informasjonsdatabaser eller deterministiske systemer for innhenting av informasjon. Det vil si at mens du kan forvente konsekvente svar på databasespørringer (bokstavelig talt henting av statisk informasjon som er lagret i en database), er det ikke sikkert at en SSM gir samme svar på samme forespørsel hver gang (og den henter ikke direkte informasjonen som ble brukt til å lære den opp). Dette er også en viktig årsak til at SSM-er kan generere svar som virker plausible, men som noen ganger inneholder faktafeil. Dette er ikke ideelt når det er viktig at faktaene stemmer, men det kan være nyttig for å generere kreative eller uventede svar.

2 Etteropplæring

Etter den første opplæringen går SSM-er gjennom flere trinn for å finstemme svarene de gir. Et av disse kalles overvåket finstemming (supervised fine-tuning), der modellen læres opp med nøye valgte eksempler på svar av høy kvalitet. Det kan sammenlignes med å lære barn å skrive ved å vise dem velskrevne historier og stiler.

Deretter kommer forsterkende læring av tilbakemelding fra mennesker (reinforcement learning from human feedback). I denne fasen lærer modellen å generere enda bedre svar basert på poeng eller tilbakemeldinger fra en spesiell belønningsmodell. Denne belønningsmodellen er lært opp med preferansedata fra mennesker, hvor svarene er vurdert opp mot hverandre, slik at modellen lærer seg hva folk foretrekker. Preferansedata kan noen ganger inneholde og eksponere modeller for støtende eller feilaktige data, slik at de lærer hvordan de kan gjenkjenner og unngå dem. Du kan tenke på preferansedata som at du belønner et barn for å ha gjort en god jobb – modellen belønnes for å generere svar som folk liker.

Det er viktig å bruke opplæringsdata av høy kvalitet gjennomgående i disse fasene. Eksempler som brukes til overvåket finstemming, blir vanligvis enten skrevet av eksperter eller generert av en modell og gjennomgått av eksperter.

Selv om disse teknikkene er kraftige, har de begrensninger. Det er for eksempel ikke garantert at et gitt svar alltid kommer til å være perfekt, selv ved hjelp av belønningsmodellen. SSM-en er likevel optimalisert for å produsere svarene som generelt er mest foretrukket, basert på tilbakemeldingene den får, i likhet med elever som tar lærdom av kommentarene de får fra læreren.

3 Svar på brukerforespørsler

Generering av svar kan minne om hvordan mennesker idémyldrer ulike tilnærminger til å svare på spørsmål. Når en bruker kommer med en forespørsel, bruker Gemini den etteropplærte SSM-en, konteksten i forespørselen og interaksjonen med brukeren for å kladde flere versjoner av et svar. Den bruker også eksterne kilder, som Google Søk, og/eller en av flere utvidelser, samt nylig opplastede filer (kun Gemini Advanced) for å generere svar. Denne prosessen kalles forsterkning gjennom informasjonshenting. For hver forespørsel prøver Gemini å hente den mest relevante informasjonen fra disse eksterne kildene (f.eks. Google Søk) og vise den nøyaktig i svaret. Forsterking av SSM-er gjennom eksterne verktøy er et aktivt forskningsområde. Det kan snike seg inn feil på mange måter, blant annet gjennom spørringen Gemini bruker for å aktivere disse eksterne verktøyene, hvordan Gemini tolker resultatene som verktøyene returnerer, og måten de returnerte resultatene brukes på i det endelige svaret. På grunn av dette er det ikke sikkert at svarene som Gemini genererer, gjenspeiler resultatene fra de ulike verktøyene som ble brukt i dette svaret.

Til slutt, før det endelige svaret vises, blir det utført en sikkerhetssjekk av hvert potensielle svar for å kontrollere at det overholder de forhåndsbestemte retningslinjene. Denne prosessen er en dobbeltsjekk som filtrerer bort skadelig eller støtende informasjon. Så rangeres resten av svarene etter kvalitet, og det/de med høyest kvalitet sendes tilbake til brukeren.

Vi setter også vannmerke på tekst- og bildesvar fra Gemini med SynthID, det bransjeledende digitale verktøyet vårt for vannmerking av AI-generert innhold. For genererte bilder legger SynthID til et digitalt vannmerke (som ikke er merkbart for det menneskelige øye) direkte i pikslene. SynthID er en viktig komponent i utviklingen av mer pålitelige verktøy for AI-identifisering og kan hjelpe folk med å ta informerte beslutninger om hvordan de samhandler med AI-generert innhold.

4 Tilbakemeldinger og evalueringer fra mennesker

Selv med sikkerhetssjekker kan det noen ganger oppstå feil. Og det er ikke sikkert at svarene fra Gemini alltid lever opp til forventningene dine. Det er her tilbakemeldinger fra mennesker kommer inn. Evaluerere vurderer kvaliteten på svarene, identifiserer områder med rom for forbedring og foreslår løsninger. Disse tilbakemeldingene blir en del av Geminis læringsprosess, som forklart i delen «Etteropplæring» ovenfor.