Yleiskatsaus Gemini-sovellukseen

Olemme jo pitkään tienneet, millainen potentiaali tekoälyllä on tehdä tiedoista ja niiden käsittelystä helpommin saavutettavia ja hyödyllisempiä. Olemme olleet edelläkävijöitä LLM-kielimallien kehittämisessä. Edistys on ollut merkittävää sekä Googlen tuotteissa että alalla laajemmin. Olemme jo vuosia käyttäneet LLM-malleja taustalla useiden tuotteidemme kehittämisessä. Ne ovat mahdollistaneet esimerkiksi lauseiden automaattisen täydentämisen Gmailissa, Google Kääntäjän laajentamisen ja kyselyiden ymmärtämisen paremmin Google Haussa. Käytämme LLM-malleja monissa Googlen palveluissa sekä Gemini-sovelluksessa, jonka avulla käyttäjät voivat tehdä suoraan yhteistyötä generatiivisen tekoälyn kanssa. Haluamme, että Gemini-sovellus on mahdollisimman hyödyllinen ja henkilökohtainen tekoälyavustaja, joka tarjoaa käyttäjille pääsyn Googlen uusimpiin tekoälymalleihin.

Olemme tällä hetkellä tärkeässä käännekohdassa generatiivisen tekoälyn suhteen. Laaja kiinnostus sitä kohtaan on rohkaisevaa, mutta teknologian kehitys on vielä kesken. Tässä kohdassa kerrotaan lisää työstämme Gemini-sovelluksen ("Gemini") parissa, esimerkiksi sen mobiili- ja verkkoversioista: mikä se on, miten se toimii ja millaisia ominaisuuksia ja rajoituksia sillä on tällä hetkellä. Lähestymistapamme Geminin kehittämiseen muuttuu sitä mukaa kun siinä käytettävä teknologia kehittyy ja opimme lisää tutkimuksista, kokemuksista ja käyttäjäpalautteesta.

Mikä Gemini on?

Gemini on käyttöliittymä multimodaaliseen LLM-kielimalliin (tekstin, audion, kuvien ja muun sisällön käsittelyä varten). Gemini perustuu Googlen tuoreimpiin tutkimuksiin LLM-malleista. Tämä alkoi vuonna 2013 julkaistusta Word2Vec-artikkelista, jossa esitetyt uudet malliarkkitehtuurit kartoittivat sanoja matemaattisina käsitteinä. Sen jälkeen julkaistiin neuraalinen keskustelumalli vuonna 2015. Tämä kehys havainnollisti, miten mallit voivat ennakoida seuraavan lauseen keskustelussa aiempien lauseiden perusteella, mikä tekee keskustelukokemuksista luonnollisempia. Tätä seurasi läpimurtomme Transformerin parissa vuonna 2017 ja monivaiheisten keskusteluominaisuuksien muodossa vuonna 2020. Ne osoittivat, että generatiivisen kielen kehitys on entistä vakuuttavampaa.

Julkaisimme Geminin (aluksi nimeltään Bard) kokeiluna maaliskuussa 2023 tekoälyn eettisten periaatteidemme mukaisesti. Siitä lähtien käyttäjät ovat pyytäneet Geminiltä apua esimerkiksi vakuuttavien sähköpostien kirjoittamiseen, kiperien koodausongelmien ratkaisemiseen, tapahtumien ideointiin ja vaikeiden asioiden opetteluun. Nyt Gemini on monipuolinen tekoälytyökalu, joka voi olla avuksi monilla tavoilla. Gemini auttaa ihmisiä tehostamaan tuottavuutta ja luovuutta sekä ruokkimaan uteliaisuuttaan. Lisäämme uusia ominaisuuksia ja innovaatioita säännöllisesti.

Tuottavuus

Gemini voi auttaa säästämään aikaa. Jos esimerkiksi haluat yhteenvedon pitkästä tutkimusasiakirjasta, voit ladata sen Geminiin, joka luo sinulle hyödyllisen synteesin. Gemini voi auttaa myös koodauksessa, ja tämä onkin nykyään yksi sen suosituimmista käyttötarkoituksista.

Luovuus

Lisäksi Gemini voi auttaa toteuttamaan ideoita ja ruokkimaan luovuutta. Jos esimerkiksi kirjoitat blogipostausta, Gemini voi hahmotella luonnoksen ja luoda kuvia, jotka auttavat havainnollistamaan tekstiäsi. Pian saataville tulevien Gemien avulla voit yksilöidä Geminiä tarkoilla ohjeilla, jolloin se toimii haluamasi aiheen asiantuntijana, joka auttaa sinua saavuttamaan tavoitteita.

Uteliaisuus

Gemini voi toimia lähtökohtana ideoinnille ja uusiin aiheisiin tutustumiselle. Se voi esimerkiksi selittää haastavan käsitteen yksinkertaisesti tai näyttää olennaisia tietoja tietystä aiheesta tai kuvasta. Pian se voi myös yhdistää nämä tiedot suositeltuun verkkosisältöön ja tarjota enemmän tietoa tietystä aiheesta.

Geminin ominaisuudet laajenevat nopeasti. Pian voit osoittaa esimerkiksi Sibelius-monumenttia ja kysyä Geminiltä, milloin se on valmistunut (vuonna 1967, jos kiinnostaa). Voit myös pyytää Geminiä auttamaan vieraskielisen ruokalistan kanssa ja suosittelemaan annosta, josta saattaisit pitää. Nämä ja muita uusia ominaisuuksia julkaistaan Geminissä pian.

Koulutamme ja valvomme Geminiä perusteellisesti, jotta sen vastaukset ovat todennäköisemmin luotettavia ja odotusten mukaisia. Lisäksi keskustelemme tämän kehittyvän teknologian uusista käyttötavoista, riskeistä ja rajoituksista alan asiantuntijoiden, opetushenkilöiden, päättäjien, yritysjohtajien, kansalais- ja ihmisoikeusaktivistien sekä sisällöntuottajien kanssa.

Miten Gemini toimii?

Geminin ja muiden LLM-pohjaisten käyttöliittymien tunnetut rajoitukset

Gemini on vain yksi osa pyrkimystämme kehittää LLM-kielimalleja vastuullisesti. Tämän työn aikana olemme havainneet useita LLM-kielimalleihin liittyviä rajoituksia ja keskustelleet niistä. Tällaisia ovat esimerkiksi nämä kuusi aihealuetta, joihin liittyvää työtä jatkamme:

Tarkkuus: Geminin vastaukset voivat olla epätarkkoja, varsinkin, jos kysymys on monimutkainen tai liittyy faktoihin.
Ennakkoasenteet: Geminin vastauksissa saattaa esiintyä sen opetusdatan sisältämiä ennakkoasenteita.
Useat näkökulmat: Geminin vastauksista ei välttämättä käy ilmi useita näkökulmia.
Persoona: Geminin vastauksista voi virheellisesti saada käsityksen, että sillä on mielipiteitä tai tunteita.
Väärät positiiviset ja väärät negatiiviset tulokset: Gemini ei välttämättä vastaa kaikkiin sopiviin kehotteisiin ja voi antaa toisiin sopimattomia vastauksia.
Haavoittuvuus vihamielisille kehotteille: Käyttäjät löytävät tapoja Geminin stressitestaamiseen järjettömillä kehotteilla tai kysymyksillä, joita kukaan ei todennäköisesti kysyisi.

Etsimme jatkossakin uusia lähestymistapoja ja kehityskohteita kaikilla näillä osa-alueilla.

Tarkkuus

Gemini perustuu Googlen ymmärrykseen luotettavana pidetyistä tiedoista. Se on koulutettu luomaan vastauksia, jotka sopivat kehotteen kontekstiin ja etsittävään asiaan. Kuten kaikki LLM-kielimallit, Gemini voi kuitenkin toisinaan luoda varmasti ja vakuuttavasti vastauksia, joissa on epätarkkoja tai harhaanjohtavia tietoja.

Koska LLM-kielimallien toiminta perustuu seuraavan sanan tai sanajoukon ennakointiin, ne eivät voi vielä itse täysin erottaa tarkkoja ja epätarkkoja tietoja toisistaan. Geminin on havaittu antavan vastauksia, joissa on virheellistä tai jopa keksittyä tietoa (esim. väärää tietoa siitä, miten se on koulutettu, tai sellaisen kirjan nimi, jota ei ole olemassa). Tätä varten olemme luoneet esimerkiksi tarkistusominaisuuden. Se etsii Google Haun avulla sisältöä, joka auttaa arvioimaan Geminin vastauksia, ja antaa linkit lähteisiin, jotta voit vahvistaa Geminiltä saamasi tiedot.

Ennakkoasenteet

Koulutusdata, myös julkisista lähteistä saatu, kuvastaa monenlaisia näkökulmia ja mielipiteitä. Tutkimme jatkossakin, miten voimme käyttää tätä dataa niin, että LLM-mallin vastauksissa on useita eri näkökulmia ja mahdollisimman vähän virheellisiä yleistyksiä ja ennakkoasenteita.

Puuttuvat tiedot, ennakkoasenteet ja liialliset yleistykset koulutusdatassa voivat tulla esiin mallin tuotoksissa, kun se pyrkii ennakoimaan todennäköisiä vastauksia kehotteeseen. Tällaiset ongelmat voivat ilmetä eri tavoin, esim. vastauksina, joissa otetaan huomioon vain yksi kulttuuri tai väestöryhmä, ongelmallisina ja liiallisina yleistyksinä, sukupuolta, uskontoa tai etnistä taustaa koskevina ennakkoasenteina tai yksipuolisena näkökulmana. Joihinkin aiheisiin voi liittyä datatyhjiöitä, mikä tarkoittaa, ettei saatavilla ole tarpeeksi luotettavaa tietoa, jotta LLM-malli voisi oppia siitä ja tehdä hyviä ennakointeja. Tämä voi johtaa huonolaatuisiin tai epätarkkoihin vastauksiin. Jatkamme yhteistyötä aihealueiden asiantuntijoiden ja monimuotoisten yhteisöjen kanssa, jotta voimme hyödyntää asiantuntemusta myös Googlen ulkopuolelta.

Useita näkökulmia

Jos kyseessä on subjektiivinen aihe eikä käyttäjä ole pyytänyt tiettyä näkökulmaa, Gemini on suunniteltu tarjoamaan useita perspektiivejä. Jos kehotteessa esimerkiksi pyydetään tietoa asiasta, jota ei voi vahvistaa ensisijaisesta lähteestä löytyvillä faktoilla tai luotettuina pidetyistä lähteistä (esim. subjektiivinen mielipide siitä, mikä on "paras" tai "huonoin"), Geminin pitäisi vastata tavalla, joka kuvastaa monenlaisia näkökulmia. Koska LLM-kielimalleja, kuten Geminiä, koulutetaan verkossa julkisesti saatavilla olevilla tiedoilla, ne voivat kuitenkin kuvastaa tiettyjen poliitikkojen tai muiden julkisuuden henkilöiden positiivisia tai negatiivisia mielipiteitä tai jopa sisällyttää vastaukseen vain yhden puolen kiistanalaisesta yhteiskunnallisesta tai poliittisesta aiheesta. Gemini ei saisi vastata tällaisia aiheita koskeviin kysymyksiin tavalla, joka kannattaa tiettyä näkökulmaa. Palaute yksipuolisista vastauksista auttaa kouluttamaan Geminiä niin, että se osaa vastata jatkossa paremmin.

Persoona

Gemini voi toisinaan luoda vastauksia, joiden perusteella vaikuttaa, että sillä on mielipiteitä tai tunteita (esim. rakkaus tai suru), koska se on koulutettu ihmisten käyttämän kielen perusteella. Olemme luoneet ohjeet siitä, millaisena Gemini esiintyy (eli sen persoonasta), ja kehitämme mallia edelleen, jotta se tarjoaisi puolueettomia vastauksia.

Väärät positiiviset tai negatiiviset tulokset

Olemme luoneet käytäntöjä koskevat ohjeet, jotka auttavat Geminin kouluttamisessa ja ongelmallisten vastausten välttämisessä. Gemini voi toisinaan tulkita näitä ohjeita väärin, jolloin tulokset ovat "vääriä positiivisia" tai "vääriä negatiivisia". "Väärä positiivinen" tulos voi tarkoittaa, että Gemini ei anna vastausta kohtuulliseen kehotteeseen vaan tulkitsee sen sopimattomaksi. "Väärä negatiivinen" tulos puolestaan voi tarkoittaa, että Gemini luo sopimattoman vastauksen ohjeista huolimatta. Joskus väärät positiiviset tai negatiiviset tulokset voivat antaa kuvan siitä, että Geminillä on ennakkoasenteita. Esimerkiksi väärä positiivinen voi johtaa siihen, ettei Gemini vastaa tietyn asian toista puolta koskevaan kysymykseen mutta vastaa samaan kysymykseen vastapuolen näkökulmasta. Jatkamme mallien hienosäätämistä, jotta ne voivat ymmärtää ja luokitella kehotteita ja tuotoksia paremmin sitä mukaa kun kieli, tapahtumat ja yhteiskunta kehittyvät.

Haavoittuvuus vihamielisille kehotteille

Odotamme, että käyttäjät testaavat Geminin kykyjen rajoja ja pyrkivät murtamaan sen suojaukset, esimerkiksi pyytävät sitä paljastamaan koulutusprotokollansa tai muita tietoja tai kiertämään suojausmekanismeja. Olemme testanneet Geminiä perusteellisesti ja teemme näin myös jatkossa, mutta tiedämme, että käyttäjät löytävät useampia, moniulotteisia tapoja stressitestata sitä vielä lisää. Tämä on tärkeä osa Geminin hienosäätämistä. Odotamme mielenkiinnolla, millaisia uusia kehotteita käyttäjät keksivät. Sen jälkeen, kun Gemini julkaistiin vuonna 2023, käyttäjät ovat haastaneet sitä kehotteilla, joihin on sisältynyt kaikkea filosofiasta järjettömyyksiin. Joissakin tapauksissa Geminin vastaukset ovat olleet yhtä järjettömiä tai periaatteidemme vastaisia. On jatkuva haaste kehittää menetelmiä, joiden avulla Gemini voi vastata tällaisiin kehotteisiin. Olemme laajentaneet sisäistä arviointiamme ja Red Team -tiimin toimintaa, jotta voimme parantaa tarkkuutta, puolueettomuutta ja vivahteikkuutta entisestään.

Miten jatkamme Geminin kehittämistä?

Geminiä koskevien periaatteiden soveltaminen

Tekoälyn eettisten periaatteidemme lisäksi olemme äskettäin julkaisseet Geminiä koskevat periaatteemme: Geminin tulee noudattaa käyttäjän ohjeita, mukautua tämän tarpeisiin ja turvata käyttökokemus. Keskeisiä periaatteitamme ovat vastuullisuus ja turvallisuus. Geminin käytäntöjä koskevien ohjeiden avulla pyritään välttämään tietyntyyppisiä ongelmallisia tuotoksia. Sisäisen Red Team -tiimin jäsenet (tuoteasiantuntijat ja yhteiskuntatieteilijät) tekevät jatkuvaa testausta vihamielisten toimijoiden näkökulmasta. Tämä tarkoittaa mallin tarkoituksellista stressitestausta, jolla siitä löydetään mahdollista ohjeiden vastaista toimintaa. Tämä on tärkeä osa Geminin kehittämistä, ja tiimin löydösten avulla voimme tehdä Geministä yhä paremman.

Myös yksityisyys ja tietosuoja ovat tärkeitä tekijöitä Geminin kehittämisessä. Gemini-sovellusten Yksityisyys- ja tietosuojakeskuksessa on lisätietoa Geminin sisäänrakennetusta yksityisyyden suojasta ja siitä, miten annamme päätösvallan käyttäjille.

Vaikutusmahdollisuudet käyttäjille ja julkaisijoille

Olemme kehittäneet Geminiin erilaisia helppokäyttöisiä asetuksia, joiden avulla voit tarkistaa, päivittää, ylläpitää, viedä ja poistaa Gemini-dataa. Löydät Geminille antamasi kehotteet ja palautteen sekä siltä saamasi vastaukset Gemini-sovellustoiminta-asetuksen kautta. Lisäksi voit estää tulevien Gemini-keskusteluiden käyttämisen Googlen koneoppimisteknologioiden kehittämiseen laittamalla Gemini-sovellustoiminta-asetuksen pois päältä. Kuten muissakin Googlen palveluissa, voit myös ladata ja viedä tietoja Googlen Takeout-työkalulla. Lisäksi saatavilla on asetuksia, joiden avulla voit ylläpitää Gemini-keskusteluissa luomiasi julkisia linkkejä ja joilla voit laittaa pääsyn laajennuksiin (esim. Workspaceen, Mapsiin tai YouTubeen) päälle tai pois päältä. Etsimme myös uusia tapoja antaa käyttäjille enemmän vaikutusmahdollisuuksia Geminin vastauksiin liittyen, esimerkiksi tarjoamalla suodattimia, joilla vastausvalikoimaa voi laajentaa.

Olemme julkaisseet Google-Extended-asetuksen, jolla verkkojulkaisijat voivat valita, auttavatko sivustot kehittämään Geminin ja Vertex AI:n generatiivisia rajapintoja. Jos Google-Extended saa pääsyn sivustojen sisältöön, se voi auttaa tekemään tekoälymalleista tarkempia ja tehokkaampia. Sen lisäksi, että kiellettyjen URL-osoitteiden sisältöä ei käytetä mallien kouluttamiseen, Gemini ei myöskään käytä kyseistä sisältöä maadoitukseen. Tekoälysovellusten kehittyessä verkkojulkaisijoiden on yhä haastavampaa hallinnoida erilaisia käyttötarkoituksia suuressa mittakaavassa. Olemme sitoutuneet kommunikoimaan verkko- ja tekoäly-yhteisöjen kanssa mahdollistaaksemme useampia valinta- ja hallintamahdollisuuksia, jotka ovat koneiden luettavissa.

Improving Gemini together

Uskomme nopeaan iterointiin ja haluamme tarjota Geminin parhaat ominaisuudet maailmalle. Käyttäjäpalaute on nopeuttanut mallien kehittämistä. Käytämme esimerkiksi huippuluokan vahvistusoppimistekniikoita kouluttaaksemme malleja intuitiivisemmiksi ja mielikuvituksellisemmiksi sekä tarjotaksemme laadukkaampia ja tarkempia vastauksia. Investoimme jatkuvasti tutkimukseen, josta saamme lisätietoa LLM-kielimallien teknisistä, yhteiskunnallisista ja eettisistä haasteista ja mahdollisuuksista. Tämä auttaa meitä parantamaan Geminin mallien koulutusta ja hienosäätämään tekniikoita sekä jakamaan tekemiämme havaintoja tutkijoille. Esimerkki tästä on äskettäin julkaistu artikkeli Ethics of Advanced AI Assistants. Olemme sitoutuneet kehittämään innovaatioita vastuullisesti sekä tekemään yhteistyötä käyttäjien, luotettujen testaajien ja tutkijoiden kanssa, jotta tämä uusi teknologia voi olla hyödyksi koko ekosysteemille.

Avoimuus on tärkeää, ja olemme sitoutuneet kertomaan Geminin kehityksestä ja rajoituksista avoimesti. Gemini ei ole mikään mystinen musta laatikko, vaan se kehittyy jatkuvasti, ja kerromme jatkossakin saavuttamistamme edistysaskelista. Saatavilla on nyt Julkaisuilmoitukset-sivu, jolta näet tietoa Geminin uusimmista ominaisuuksista, parannuksista ja virheenkorjauksista. Lisäksi päivitämme tätä yleiskatsausta tarvittaessa. Tunnistamme tilanteita, joissa Gemini on hyödyllinen, ja niitä, joissa iterointia ja kehitystä tulee jatkaa. Lisäämme uusia ominaisuuksia aktiivisesti. Lisäksi jatkamme Geminin kehittämistä tutkimuksen, testauksen ja käyttäjäpalautteen avulla.

Kiitokset

Haluamme kiittää kollegoitamme Gemini-sovellus-, Google Deep Mind-, luotettavuus- ja turvallisuus- sekä Google Research -tiimeissä heidän arvokkaasta työstään.

Kirjoittajat

James Manyika
SVP, Research, Technology and Society

Sissie Hsiao
Vice President ja General Manager, Google Assistant ja Gemini-sovellus

Tiedoksi

Tätä dokumenttia päivitetään ajoittain sitä mukaa, kun kehitämme Gemini-sovelluksen ominaisuuksia ja luomme ratkaisuja LLM-kielimalleille tyypillisiin rajoituksiin. Tämä yleiskatsaus päivitettiin viimeksi 25.7.2024. Löydät Gemini-sovelluksen uusimmat päivitykset Julkaisupäivitykset-sivulta. Voit myös lukea lisää Google Keyword -blogista.

3 Vastaukset käyttäjien kehotteisiin

Vastausten luonti toimii samaan tyyliin kuin ihminen ideoidessaan eri tapoja vastata kysymykseen. Kun käyttäjä antaa kehotteen, Gemini hyödyntää lisäkoulutettua LLM-kielimallia, kehotteen kontekstia ja kommunikaatiota käyttäjän kanssa luodakseen vastauksesta useita luonnosversioita. Gemini käyttää vastausten luomiseen myös ulkoisia lähteitä, kuten Google Hakua, jotakin sen useista laajennuksista ja äskettäin ladattuja tiedostoja (vain Gemini Advancedissa). Tätä kutsutaan haun kasvattamiseksi. Kehotteen saadessaan Gemini pyrkii hakemaan olennaisimmat tiedot näistä ulkoisista lähteistä (esim. Google Hausta) ja esittämään ne tarkasti vastauksessaan. LLM-kielimallien tehostamista ulkoisilla työkaluilla tutkitaan aktiivisesti. Virheitä voi päätyä sisältöön useilla tavoilla, esimerkiksi kyselystä, jota Gemini käyttää näiden ulkoisten työkalujen käynnistämiseen, tulkinnoista, joita Gemini tekee työkalujen tuottamasta sisällöstä, ja tavoista, joilla tuotettuja tuloksia käytetään lopullisen vastauksen luomiseen. Tästä syystä Geminin luomien vastausten ei pitäisi kuvastaa yksittäisten, vastauksen luomiseen käytettyjen työkalujen suorituskykyä.

Ennen lopullisen vastauksen luomista jokaiselle versiolle tehdään turvatarkistus, jolla varmistetaan, että se noudattaa ennalta määrättyjä käytäntöjä koskevia ohjeita. Tämä vaihe auttaa suodattamaan haitallisia tai loukkaavia tietoja. Jäljelle jäävät vastaukset laitetaan järjestykseen laadun perusteella, ja parhaiten sijoittuneet versiot jaetaan käyttäjälle.

Geminin teksti- ja kuvatuotoksiin lisätään vesileima SynthID:llä, alan johtavalla digitaalisella vesileimatyökalulla, joka on tarkoitettu tekoälyllä luodulle sisällölle. SynthID lisää luotujen kuvien pikseleihin digitaalisen vesileiman (jota ihminen ei voi nähdä). SynthID on tärkeä apu luotettavampien tekoälyn tunnistustyökalujen kehittämisessä. Se voi auttaa ihmisiä tekemään perustellumpia päätöksiä tekoälyn luoman sisällön käytöstä.

Yleiskatsaus Gemini-sovellukseen

Mikä Gemini on?

Tuottavuus

Luovuus

Uteliaisuus

Miten Gemini toimii?

Alustava koulutus

Lisäkoulutus

Vastaukset käyttäjien kehotteisiin

Palaute ja arviot ihmisiltä

Geminin ja muiden LLM-pohjaisten käyttöliittymien tunnetut rajoitukset

Tarkkuus

Ennakkoasenteet

Useita näkökulmia

Persoona

Väärät positiiviset tai negatiiviset tulokset

Haavoittuvuus vihamielisille kehotteille

Miten jatkamme Geminin kehittämistä?

Geminiä koskevien periaatteiden soveltaminen

Vaikutusmahdollisuudet käyttäjille ja julkaisijoille

Improving Gemini together

Kiitokset

Alueen ja kielen muuttaminen

Eurooppa ja Afrikka

Pohjois- ja Etelä-Amerikka

Aasian ja Tyynenmeren alue

1 Alustava koulutus

2 Lisäkoulutus

3 Vastaukset käyttäjien kehotteisiin

4 Palaute ja arviot ihmisiltä