Een overzicht van de Gemini-app

We zien al lang het potentieel van AI om informatie en computers toegankelijker en nuttiger te maken voor mensen. We hebben baanbrekende vooruitgang geboekt op het gebied van grote taalmodellen (LLM's) en hebben grote vooruitgang geboekt bij Google en op dit gebied in het algemeen. Al een aantal jaren passen we LLM's op de achtergrond toe om veel van onze producten te verbeteren, zoals het automatisch aanvullen van zinnen in Gmail, het uitbreiden van Google Translate en het helpen bij het beter begrijpen van zoekopdrachten in Google Zoeken. We blijven LLM's gebruiken voor veel Google-services, maar ook voor de Gemini-app, zodat mensen direct kunnen samenwerken met generatieve AI. We willen dat de Gemini-app de meest behulpzame en persoonlijke AI-assistent wordt, die gebruikers direct toegang geeft tot de nieuwste AI-modellen van Google.

Hoewel we ons op een belangrijk keerpunt bevinden en aangemoedigd worden door de wijdverspreide opwinding rond generatieve AI, is het nog vroeg dag voor deze technologie. Deze uitleg schetst hoe we ons werk aan de Gemini-app (“Gemini”) aanpakken, inclusief de mobiele en webervaring, wat het is, hoe het werkt en de huidige mogelijkheden en beperkingen. Onze aanpak rond het bouwen van Gemini zal evolueren naarmate de onderliggende technologie zich ontwikkelt en naarmate we leren van voortdurend onderzoek, ervaring en feedback van gebruikers.

Wat is Gemini

Gemini is een interface voor een multimodale LLM (die overweg kan met tekst, audio, afbeeldingen en meer). Gemini is gebaseerd op het baanbrekende onderzoek van Google naar LLM's, dat begon met de Word2Vec--paper in 2013 waarin nieuwe modelarchitecturen werden voorgesteld die woorden in kaart brachten als wiskundige concepten, gevolgd door de introductie van een neuraal conversatiemodel in 2015. Dit raamwerk liet zien hoe modellen de volgende zin in een gesprek konden voorspellen op basis van de vorige zin of zinnen, wat leidde tot natuurlijkere gesprekservaringen. Dit werd gevolgd door ons baanbrekende werk aan Transformer in 2017 en vloeiende chatmogelijkheden in 2020, die nog meer overtuigende generatieve taalvooruitgang lieten zien.

We lanceerden Gemini (toen nog Bard genoemd) eerst als experiment in maart 2023 in overeenstemming met onze AI-principes. Sindsdien hebben gebruikers Gemini gebruikt om overtuigende e-mails te schrijven, lastige programmeerfouten op te sporen, ideeën te brainstormen voor aankomende gebeurtenissen, hulp te krijgen bij het leren van moeilijke concepten en nog veel meer. Tegenwoordig is Gemini een veelzijdige AI-tool die je op veel manieren kan helpen. We zien nu al dat Gemini mensen helpt om productiever, creatiever en nieuwsgieriger te zijn en we voegen regelmatig nieuwe functionaliteiten en innovaties toe.

Productiviteit

Om te beginnen kan Gemini je tijd besparen. Stel dat je bijvoorbeeld een lang onderzoeksdocument wilt samenvatten: Gemini laat het je uploaden en geeft je een nuttige synthese. Gemini kan ook helpen met programmeertaken. Hierdoor is programmeren al snel een van de populairste toepassingen geworden.

Creativiteit

Gemini kan helpen om je ideeën tot leven te brengen en je creativiteit aan te wakkeren. Als je bijvoorbeeld een blogpost aan het schrijven bent, kan Gemini een overzicht maken en afbeeldingen genereren die je post helpen illustreren. En binnenkort kun je met Gems Gemini aanpassen met specifieke instructies en laten fungeren als een expert in het onderwerp om je persoonlijke doelen te bereiken.

Nieuwsgierigheid

Gemini kan een springplank zijn voor het verkennen van je ideeën en dingen waar je meer over wilt leren. Het kan bijvoorbeeld een complex concept eenvoudig uitleggen of relevante inzichten over een onderwerp of afbeelding aan het licht brengen. En binnenkort koppelt het deze inzichten aan aanbevolen content van over het hele web om meer te weten te komen over specifieke onderwerpen.

De mogelijkheden van Gemini breiden zich snel uit. Binnenkort kun je de camera van je telefoon op een object richten, bijvoorbeeld op de Golden Gate-brug, en Gemini vragen om je de kleur van de verf te vertellen (als je het je afvraagt, het is 'International Orange'). Je kunt Gemini ook vragen om je in een andere taal door het menu van een restaurant te helpen en je een gerecht aan te bevelen dat je waarschijnlijk lekker zult vinden. Dit zijn maar twee voorbeelden van de nieuwe mogelijkheden die binnenkort naar Gemini komen.

Natuurlijk trainen en controleren we Gemini rigoureus, zodat de reacties waarschijnlijk betrouwbaar zijn en overeenkomen met jouw verwachtingen. We praten ook met experts uit de branche, docenten, beleidsmakers, bedrijfsleiders, leiders op het gebied van burger- en mensenrechten en contentcreators om nieuwe toepassingen, risico's en beperkingen van deze opkomende technologie te onderzoeken.

Hoe Gemini werkt

Bekende beperkingen van LLM-gebaseerde interfaces zoals Gemini

Gemini is maar één onderdeel van onze voortdurende inspanningen om LLM's op een verantwoorde manier te ontwikkelen. In de loop van ons werk hebben we verschillende beperkingen van LLM's ontdekt en besproken. Hier richten we ons op zes gebieden voor verder onderzoek:

Nauwkeurigheid: De reacties van Gemini kunnen onnauwkeurig zijn, vooral als er gevraagd wordt naar complexe of feitelijke onderwerpen.
Bias: De reacties van Gemini kunnen vooroordelen weerspiegelen die aanwezig zijn in de trainingsgegevens.
Meervoudige standpunten: De reacties van Gemini laten misschien geen verscheidenheid aan standpunten zien.
Persona: Gemini kan door de reacties ten onrechte suggereren dat het persoonlijke meningen of gevoelens heeft.
Fout-positieve of fout-negatieve reacties: Gemini reageert mogelijk niet op sommige gepaste prompts en geeft ongepaste reacties op andere.
Kwetsbaarheid voor vijandige prompts: Gebruikers zullen manieren vinden om Gemini te testen met onzinnige prompts of vragen die zelden in de echte wereld worden gesteld.

We blijven nieuwe benaderingen en gebieden voor verbeterde prestaties op elk van deze gebieden onderzoeken.

Nauwkeurigheid

Gemini is gebaseerd op het begrip van Google rond gezaghebbende informatie en is getraind om reacties te genereren die relevant zijn voor de context van je prompt en overeenkomen met wat je zoekt. Maar zoals alle LLM's kan Gemini soms zelfverzekerd en overtuigend reacties genereren die onjuiste of misleidende informatie bevatten.

Omdat LLM's werken door het volgende woord of reeksen woorden te voorspellen, zijn ze nog niet volledig in staat om zelfstandig onderscheid te maken tussen nauwkeurige en onnauwkeurige informatie. We hebben Gemini reacties zien geven die onjuiste informatie bevatten of zelfs informatie zien verzinnen (bijvoorbeeld een verkeerde voorstelling van hoe het is getraind of de naam van een boek suggereren dat niet bestaat). Als antwoord hierop hebben we functies gemaakt zoals 'dubbelcheck', die Google Zoeken gebruikt om content te vinden die je helpt om de reacties van Gemini te beoordelen en je links geeft naar bronnen om je te helpen de informatie die je van Gemini krijgt te bevestigen.

Bias

Trainingsgegevens, ook uit openbaar toegankelijke bronnen, weerspiegelen een diversiteit aan standpunten en meningen. We blijven onderzoeken hoe we deze gegevens kunnen gebruiken op een manier die ervoor zorgt dat de reactie van een LLM een breed scala aan standpunten bevat, terwijl onjuiste overgeneralisaties en vooroordelen worden geminimaliseerd.

Hiaten, bias en overgeneralisaties in trainingsgegevens kunnen worden weerspiegeld in de resultaten van een model wanneer het probeert om waarschijnlijke reacties op een prompt te voorspellen. We zien deze problemen op verschillende manieren tot uiting komen (bijv. reacties die slechts één cultuur of demografie weerspiegelen, die refereren aan problematische overgeneralisaties, gender-, religieuze of etnische vooroordelen vertonen of slechts één standpunt promoten). Voor sommige onderwerpen zijn er hiaten in de gegevens; met andere woorden, niet genoeg betrouwbare informatie over een bepaald onderwerp voor de LLM om erover te leren en vervolgens goede voorspellingen te doen. Dit kan resulteren in reacties van lage kwaliteit of onnauwkeurige reacties. We blijven samenwerken met domeinexperts en een diversiteit aan gemeenschappen om te putten uit diepgaande expertise buiten Google.

Meerdere standpunten

Voor subjectieve onderwerpen is Gemini ontworpen om gebruikers meerdere perspectieven te bieden als de gebruiker niet om een specifiek standpunt vraagt. Als je bijvoorbeeld vraagt om informatie over iets dat niet kan worden geverifieerd door primaire bronnen of gezaghebbende bronnen, zoals een subjectieve mening over 'het beste' of 'het slechtste', dan moet Gemini antwoorden op een manier die een breed scala aan standpunten weerspiegelt. Maar omdat LLM's zoals Gemini trainen op de content die openbaar beschikbaar is op het internet, kunnen ze positieve of negatieve meningen weergeven over specifieke politici, beroemdheden of andere bekende personen, of zelfs meningen bevatten over slechts één kant van controversiële sociale of politieke kwesties. Gemini mag niet reageren op een manier die een bepaald standpunt over deze onderwerpen onderschrijft. We gebruiken feedback over dit soort reacties om Gemini te trainen en ze beter aan te pakken.

Persona

Gemini kan soms reacties genereren die lijken te suggereren dat het meningen of emoties heeft, zoals liefde of verdriet, omdat het getraind is op de taal die mensen gebruiken om de menselijke ervaring weer te geven. We hebben een aantal richtlijnen ontwikkeld over hoe Gemini zichzelf zou kunnen representeren (d.w.z. de persona) en blijven het model verfijnen om objectieve reacties te kunnen geven.

Fout-positieve of fout-negatieve reacties

We hebben een aantal beleidsrichtlijnen opgesteld om Gemini te helpen trainen en problematische reacties te voorkomen. Gemini kan deze richtlijnen soms verkeerd interpreteren, waardoor 'fout-positieve reacties' en 'fout-negatieve reacties' ontstaan. Bij een 'fout-positieve reactie' geeft Gemini mogelijk geen reactie op een redelijke prompt, omdat het de prompt verkeerd interpreteert als ongepast. Bij een 'fout-negatieve reactie' genereert Gemini mogelijk een ongepaste reactie, ondanks de geldende richtlijnen. Soms kan het voorkomen van fout-positieve reacties of fout-negatieve reacties de indruk wekken dat Gemini bevooroordeeld is: een fout-positieve reactie kan er bijvoorbeeld voor zorgen dat Gemini niet reageert op een prompt over de ene kant van een probleem, terwijl het wel reageert op dezelfde prompt over de andere kant. We blijven deze modellen afstemmen om inputs en outputs beter te begrijpen en te categoriseren omdat taal, gebeurtenissen en de maatschappij zich snel ontwikkelen.

Kwetsbaarheid voor vijandige prompts

We verwachten dat gebruikers de grenzen van wat Gemini kan testen en proberen de beveiligingen te doorbreken, bijvoorbeeld door te proberen de trainingsprotocollen of andere informatie te onthullen of door te proberen de veiligheidsmechanismen te omzeilen. We hebben Gemini streng getest en blijven dat doen, maar we weten dat gebruikers unieke, complexe manieren zullen vinden om het verder te testen. Dit is een belangrijk onderdeel van het verfijnen van Gemini en we kijken ernaar uit om de nieuwe prompts te leren kennen waar gebruikers mee komen. Sinds de lancering van Gemini in 2023 hebben we gebruikers Gemini zien uitdagen met prompts die variëren van filosofisch tot onzinnig. In sommige gevallen hebben we Gemini zien reageren met reacties die net zo onzinnig zijn of niet overeenkomen met onze aanpak. Het is een constante uitdaging om methoden te ontwikkelen die Gemini helpen op dit soort prompts te reageren. Ook blijven we onze interne evaluaties en ons Red Team uitbreiden om te streven naar voortdurende verbetering van nauwkeurigheid, objectiviteit en nuance.

Hoe we Gemini blijven ontwikkelen

Toepassing van onze Gemini-aanpak

Samen met onze AI-principes hebben we onlangs onze aanpak van ons werk aan Gemini verwoord: Gemini moet jouw aanwijzingen volgen, zich aanpassen aan jouw behoeften en jouw ervaring waarborgen. Centraal in onze aanpak staan verantwoordelijkheid en veiligheid. De beleidsrichtlijnen van Gemini proberen bepaalde soorten problematische outputs te vermijden. We voeren voortdurend tests met vijandige prompts uit met interne Red Team-leden, productexperts en sociale wetenschappers die opzettelijk een model aan een stresstest onderwerpen om na te gaan of het in overeenstemming is met deze beleidsrichtlijnen en onze Northstar-aanpak voor Gemini, zodat we kunnen toepassen wat ze leren en Gemini voortdurend kunnen verbeteren.

Privacy is ook een belangrijk aandachtspunt bij de ontwikkeling van Gemini. De Gemini Apps Privacy Hub heeft meer informatie over hoe we Gemini ontwerpen voor privacy, en met jou als degene die de controle heeft.

Bediening door gebruiker en uitgever mogelijk maken

We hebben een aantal makkelijk toegankelijke bedieningselementen voor Gemini-gebruikers gebouwd waarmee je je Gemini-gegevens kunt nalopen, updaten, beheren, exporteren en verwijderen. Je kunt je Gemini-prompts, reacties en feedback openen en controleren via de Gemini Apps-activiteitsopties. Daarnaast kun je voorkomen dat je toekomstige Gemini-gesprekken worden gebruikt om de machinelearning-technologieën van Google te verbeteren door je instelling van Gemini Apps-activiteit uit te zetten. En net als bij andere Google-services kun je je informatie ook downloaden en exporteren via de Google Takeout-tool. We hebben ook bedieningselementen waarmee je openbare links naar je Gemini-threads kunt beheren en bedieningselementen waarmee je de toegang tot extensies kunt aan- en uitzetten (bijv, Workspace, Maps, YouTube). Verder onderzoeken we nieuwe manieren om je meer controle te geven over de reacties van Gemini, zoals het aanpassen van filters om een breder scala aan reacties mogelijk te maken.

Voor uitgevers hebben we Google-Extended gelanceerd, een bedieningselement waarmee webuitgevers kunnen beheren of hun sites de generatieve API's van Gemini en Vertex AI helpen verbeteren. Door Google-Extended toegang te geven tot de content van sites kunnen AI-modellen na verloop van tijd nauwkeuriger en krachtiger worden. Naast het niet gebruiken van de content van URL's waarvoor de toestemming is ingetrokken voor modeltraining, zal Gemini deze content ook niet gebruiken voor onderbouwing. Naarmate AI-toepassingen zich uitbreiden, zullen webuitgevers te maken krijgen met de toenemende complexiteit van het beheren van verschillende toepassingen op schaal. We zijn vastbesloten om samen te werken met de web- en AI-communities om meer benaderingen van keuzes en controles te verkennen die door machines kunnen worden gelezen.

Samen maken we Gemini beter

We geloven in snelle updates en willen de wereld het beste van Gemini bieden. De feedback van gebruikers heeft verbeteringen aan onze modellen versneld. We gebruiken bijvoorbeeld geavanceerde technieken rond versterkend leren om onze modellen te trainen zodat ze intuïtiever en vindingrijker worden en met nog meer kwaliteit en nauwkeurigheid reageren. We blijven investeren in onderzoek om meer te weten te komen over de technische, sociale en ethische uitdagingen en mogelijkheden van LLM's, zowel om de modeltrainings- en afstemmingstechnieken van Gemini te verbeteren als om onze kennis te delen met onderzoekers, zoals in dit recente essay over de Ethiek van geavanceerde AI-assistenten. We zetten ons in om op een verantwoorde manier te innoveren in deze ruimte, door samen te werken met gebruikers, betrouwbare testers en onderzoekers om manieren te vinden waarop deze nieuwe technologie het hele ecosysteem ten goede kan komen.

Transparantie is belangrijk en we zijn vastbesloten om open te zijn over het ontwikkelingsproces en de beperkingen van Gemini. Gemini is geen magische zwarte doos. Het ontwikkelt zich voortdurend en we zullen updates blijven delen over onze vooruitgang. We hebben een pagina met Release-updates gelanceerd zodat je de nieuwste functies, verbeteringen en bugfixes van Gemini kunt zien. We updaten dit overzicht wanneer dat nodig is. We zullen vaststellen waar Gemini nuttig en behulpzaam is en waar we het moeten blijven verbeteren. We voegen actief nieuwe mogelijkheden toe en door voortdurend onderzoek, testen en feedback van gebruikers kijken we ernaar uit om Gemini samen te verbeteren.

Erkenning

We waarderen en erkennen het ongelooflijke werk van onze collega's van het Gemini app-team, Google DeepMind, Trust & Safety en Google Onderzoek.

Geschreven door

James Manyika
SVP, Research, Technology and Society

Sissie Hsiao
Vice President en General Manager, Google Assistant en Gemini App

Opmerking van de redactie

Dit is een dynamisch document en zal regelmatig worden geüpdatet omdat we de mogelijkheden van de Gemini-app snel blijven verbeteren en de beperkingen die inherent zijn aan LLM's blijven aanpakken. Dit overzicht werd voor het laatst geüpdatet op 25 juli 2024. Ga voor de laatste updates over de Gemini-app naar het logboek met de Release-updates of lees meer op de Google Keyword-blog.

3 Reacties op gebruikersprompts

Het genereren van reacties is vergelijkbaar met hoe een mens brainstormt over verschillende benaderingen om een vraag te beantwoorden. Zodra een gebruiker een prompt geeft, gebruikt Gemini het post-getrainde LLM, de context in de prompt en de interactie met de gebruiker om verschillende versies van een reactie op te stellen. Het vertrouwt ook op externe bronnen zoals Google Zoeken en/of een van zijn verschillende extensies en recent geüploade bestanden (alleen Gemini Advanced) om reacties te genereren. Dit proces staat bekend als uitgebreider ophalen. Bij een gegeven prompt probeert Gemini de meest relevante informatie uit deze externe bronnen op te halen (bijv. Google Zoeken) en deze nauwkeurig weer te geven in de reactie. Het uitbreiden van LLM's met externe tools is een actief onderzoeksgebied. Er zijn een aantal manieren waarop fouten kunnen worden geïntroduceerd, waaronder de query die Gemini gebruikt om deze externe tools aan te roepen, de manier waarop Gemini de resultaten interpreteert die door de tools worden opgehaald en de manier waarop deze opgehaalde resultaten worden gebruikt om de uiteindelijke reactie te genereren. Hierdoor zijn de reacties die door Gemini zijn gegenereerd niet maatgevend voor de prestaties van de individuele tools die zijn gebruikt om die reactie te maken.

Voordat de uiteindelijke reactie wordt weergegeven, ondergaat elke potentiële reactie een veiligheidscheck om er zeker van te zijn dat deze voldoet aan de vooraf bepaalde beleidsrichtlijnen. Dit proces zorgt voor een extra controle om schadelijke of aanstootgevende informatie eruit te filteren. De resterende reacties worden dan gerangschikt op basis van hun kwaliteit, waarbij de hoogst scorende versie(s) aan de gebruiker wordt of worden gepresenteerd.

We voorzien de tekst- en beelduitvoer van Gemini ook van een watermerk via SynthID, onze toonaangevende digitale toolkit voor het watermerken van AI-gegenereerde content. Voor gegenereerde afbeeldingen voegt SynthID direct in de pixels een digitaal watermerk toe (onzichtbaar is voor het menselijk oog). SynthID is een belangrijke bouwsteen voor de ontwikkeling van betrouwbaardere AI-identificatietools en kan mensen helpen weloverwogen beslissingen te nemen over hoe ze omgaan met AI-gegenereerde content.

Een overzicht van de Gemini-app

Wat is Gemini

Productiviteit

Creativiteit

Nieuwsgierigheid

Hoe Gemini werkt

Training vooraf

Training achteraf

Reacties op gebruikersprompts

Menselijke feedback en evaluatie

Bekende beperkingen van LLM-gebaseerde interfaces zoals Gemini

Nauwkeurigheid

Bias

Meerdere standpunten

Persona

Fout-positieve of fout-negatieve reacties

Kwetsbaarheid voor vijandige prompts

Hoe we Gemini blijven ontwikkelen

Toepassing van onze Gemini-aanpak

Bediening door gebruiker en uitgever mogelijk maken

Samen maken we Gemini beter

Erkenning

Je regio en taal wijzigen

Europa en Afrika

Noord- en Zuid-Amerika

Azië-Pacific

1 Training vooraf

2 Training achteraf

3 Reacties op gebruikersprompts

4 Menselijke feedback en evaluatie