Pregled aplikacije Gemini

Že dolgo se zavedamo potenciala umetne inteligence za povečanje dostopnosti ter uporabnosti informacij in računalništva. Kot prvi smo uvedli izboljšave velikih jezikovnih modelov ter zabeležili velik napredek v Googlu in širše na tem področju. Več let smo velike jezikovne modele uporabljali v ozadju, da smo izboljšali več svojih izdelkov, kot je samodokončanje stavkov v Gmailu in povečanje obsega Google Prevajalnika ter da smo lahko bolje razumeli poizvedbe v Iskanju Google. Velike jezikovne modele še naprej uporabljamo za številne Googlove storitve, na njih pa temelji tudi aplikacija Gemini, s katero lahko uporabniki sodelujejo neposredno z generativno umetno inteligenco. Prizadevamo si, da bi aplikacija Gemini postala najkoristnejši in najbolj osebni pomočnik z umetno inteligenco, ki bo uporabnikom omogočal neposredni dostop do Googlovih najnovejših modelov umetne inteligence.

Čeprav smo dosegli pomembno točko spremembe trenda in nas spodbuja vseprisotno navdušenje v zvezi z generativno umetno inteligenco, je ta tehnologija še vedno v zgodnji fazi razvoja. V tem pojasnilu je opisan naš pristop do dela v zvezi z aplikacijo Gemini (»Gemini«), vključno z različico za mobilne naprave in spletno različico – kaj je Gemini, kako deluje in kakšne so njegove trenutne zmogljivosti ter omejitve. Naš pristop k razvijanju Geminija se bo spreminjal sorazmerno s spreminjanjem temeljne tehnologije in skladno z našimi ugotovitvami iz aktualnih raziskav, izkušenj ter povratnih informacij od uporabnikov.

Kaj je Gemini

Gemini je vmesnik multimodalnega velikega jezikovnega modela (obravnava besedilo, zvok, slike in drugo). Gemini temelji na Googlovi vrhunski raziskavi velikih jezikovnih modelov, ki se je leta 2013 začela z dokumentom Word2Vec, s katerim so predlagali nove arhitekture modelov, ki so preslikale besede kot matematične koncepte, temu pa je leta 2015 sledila uvedba nevronskega pogovornega modela. To ogrodje je predstavilo, kako lahko modeli predvidijo naslednji stavek v pogovoru na podlagi prejšnjega stavka ali stavkov, kar je omogočilo pogovorne izkušnje v bolj naravnem tonu. Temu je sledil preboj pri našem delu v zvezi s Transformerjem leta 2017 in zmogljivostmi večsmernega klepeta leta 2020, kar je dokazalo še prepričljivejši napredek na področju generativnega jezika.

Najprej smo Geminija (takrat se je imenoval Bard) uvedli kot preizkus marca 2023 skladno z našimi načeli umetne inteligence. Od takrat so uporabniki Geminija uporabljali za pisanje privlačnih e-poštnih sporočil, odpravljanje napak pri zapletenih nalogah kodiranja, razvijanje zamisli za prihajajoče dogodke, pridobivanje pomoči pri učenju zahtevnejših konceptov in še veliko drugega. Danes je Gemini vsestransko orodje z umetno inteligenco, ki vam lahko pomaga na številne načine. Že zdaj opažamo, da so uporabniki z Geminijem lahko bolj produktivni, ustvarjalni ter radovedni, redno pa uvajamo tudi nove funkcije in inovacije.

Storilnost

Kot prvo vam Gemini lahko prihrani čas. Recimo, da želite povzeti dokument obsežnejše raziskave. Gemini vam omogoči, da ga naložite, nato pa vam bo podal uporabno sintezo. Gemini vam lahko pomaga tudi pri kodiranju in prav kodiranje je hitro postalo eden od najpogostejših namenov uporabe.

Ustvarjalnost

Gemini lahko tudi uresniči vaše zamisli in zaneti vašo ustvarjalnost. Recimo, da želite napisati objavo v spletnem dnevniku. Gemini lahko ustvari osnutek in generira slike, ki bodo popestrile vašo objavo. Kmalu bo vključeval tudi geme, da boste lahko Geminija prilagodili z določenimi navodili in zagotovili, da bo deloval kot strokovnjak za vsebino, ki vam bo pomagal doseči osebne cilje.

Radovednost

Gemini je lahko odskočna deska za raziskovanje zamisli in stvari, o katerih želite izvedeti več. Lahko na primer na preprost način pojasni zapleten koncept ali poda podrobne informacije o določeni temi ali sliki. Kmalu bo te podrobne informacije združil s priporočeno vsebino iz spleta, da boste lahko izvedeli še več o želeni temi.

Geminijeve zmogljivosti se hitro širijo – kmalu boste lahko fotoaparat telefona usmerili na predmet, recimo na most Golden Gate, in naročili Geminiju, naj vam pove več o njegovi barvi (če vas zanima, gre za odtenek oranžne barve »International Orange«). Geminiju boste lahko tudi naročili, naj vam pomaga razumeti jedilni list, ki je v drugem jeziku, in priporoči jed, ki vam bo najverjetneje všeč. To sta samo dva primera novih zmogljivosti, ki bodo kmalu na voljo v Geminiju.

Seveda Geminija natančno usposabljamo in nadzorujemo, da bi zagotovili, da bodo njegovi odgovori zanesljivi in skladni z vašimi pričakovanji. Sodelujemo tudi s panožnimi strokovnjaki, učitelji, nosilci političnih odločitev, vodji podjetij, vodilnimi na področju državljanskih in človekovih pravic ter ustvarjalci vsebin, da bi raziskali nove načine uporabe, tveganja in omejitve te razvijajoče se tehnologije.

Kako deluje Gemini

Znane omejitve vmesnikov, ki temeljijo na velikih jezikovnih modelih, kot je Gemini

Gemini predstavlja samo del naših stalnih prizadevanj pri odgovornem razvijanju velikih jezikovnih modelov. Tekom svojega dela smo odkrili in preučili več omejitev, povezanih z velikimi jezikovnimi modeli. Tu se bomo osredotočili na šest področij naše stalne raziskave:

Pravilnost: Geminijevi odgovori morda niso pravilni, sploh če se vprašanje nanaša na zapleteno temo ali stvarne podatke.
Pristranskost: Geminijevi odgovori lahko odražajo pristranskost, če je to prisotno v podatkih za usposabljanje.
Več vidikov: Geminiju morda v odgovore ne uspe vključiti več različnih vidikov.
Osebnost: Geminijevi odgovori lahko napačno nakazujejo, da ima osebna mnenja ali čustva.
Lažno pozitivno in lažno negativno prepoznavanje pozivov: Gemini se morda ne bo odzval na nekatere ustrezne pozive, na druge pa bo morda podal neustrezen odgovor.
Ranljivost zaradi zlonamernih pozivov: Uporabniki bodo odkrili načine, kako močno obremeniti Geminija z nesmiselnimi pozivi ali vprašanji, ki jih ljudje v resničnem svetu redko postavijo.

Še naprej raziskujemo nove pristope in vidike, da bi zagotovili boljše delovanje na teh področjih.

Pravilnost

Gemini temelji na Googlovem razumevanju verodostojnih informacij in je usposobljen za generiranje odgovorov, ki ustrezajo kontekstu vašega poziva in so skladni z vsebino, ki jo iščete. Vendar lahko Gemini, tako kot vsi veliki jezikovni modeli, včasih samozavestno in prepričljivo generira odgovore, ki vsebujejo napačne ali zavajajoče informacije.

Ker veliki jezikovni modeli delujejo tako, da predvidijo naslednjo besedo ali zaporedje besed, zaenkrat še niso povsem sposobni sami razlikovati med pravilnimi in napačnimi informacijami. Videli smo že primere, ko je Gemini prikazal odgovore, ki so vključevali napačne informacije ali pa si je take informacije celo izmislil (ko si je na primer napačno razlagal informacije, pridobljene med usposabljanjem, ali je omenil ime knjige, ki ne obstaja). Zato smo ustvarili funkcije, kot je »vnovično preverjanje«, ki uporabi Iskanje Google, da poišče vsebino, na podlagi katere lažje ocenite Geminijeve odgovore, in navede povezave do virov, da lažje potrdite informacije, ki jih je podal Gemini.

Pristranskost

Podatki za usposabljanje, vključno s tistimi iz javno razpoložljivih virov, odražajo raznolikost vidikov in mnenj. Še naprej raziskujemo, kako bi lahko te podatke uporabili na način, ki bi zagotovil, da bo odgovor velikega jezikovnega modela vključeval širok nabor stališč, obenem pa bi zmanjšali število napačnih prekomerno posplošenih in pristranskih odgovorov.

Vrzeli, pristranskost in prekomerno posploševanje v podatkih za usposabljanje se lahko odražajo v rezultatih modela, ko poskuša predvideti verjetne odgovore na poziv. Opažamo, da se te težave kažejo na različne načine (npr. odgovori, ki odražajo samo eno kulturo ali demografsko skupno, se sklicujejo na prekomerno posploševanje, kažejo na spolno, versko ali etnično pristranskost ali vključujejo samo eno stališče). Za nekatere teme obstajajo vrzeli v podatkih (ali z drugimi besedami – na voljo je premalo zanesljivih informacij o dani zadevi, da bi velik jezikovni model lahko pridobil znanje o njej in nato razvil ustrezna predvidevanja), kar lahko vodi do nekakovostnih ali napačnih odgovorov. Še naprej sodelujemo s strokovnjaki za domene in različnimi skupnostmi, da lahko izkoriščamo poglobljeno strokovno znanje zunaj Googla.

Več vidikov

V primeru subjektivnih tem je Gemini zasnovan tako, da uporabniku zagotovi več vidikov, če ta ne zahteva samo določenega vidika. Če na primer prejme poziv za pridobitev informacij glede nečesa, česar ni mogoče preveriti na podlagi dejstev iz prvotnega vira ali verodostojnih virov (kot je subjektivno mnenje o »najboljšem« oziroma »najslabšem«), bi Gemini moral odgovoriti na način, ki odraža širok nabor vidikov. Ker pa se veliki jezikovni modeli (tako kot Gemini) usposabljajo na podlagi vsebine, ki je javno dostopna v spletu, lahko nakažejo pozitiven ali negativen pogled na določene politike, slavne osebe oziroma druge javne osebe ali pa celo vključijo vidik s samo ene plati spornega družbenega ali političnega vprašanja. Gemini ne bi smel odgovarjati tako, da bi kakor koli priporočil določeno stališče v zvezi s takimi temami, zato bomo povratne informacije glede teh vrst odgovorov uporabili za usposabljanje Geminija, da se bo lahko bolje spopadal s to težavo.

Osebnost

Gemini lahko včasih generira odgovore, za katere se zdi, da nakazujejo, da ima svoja mnenja ali čustva, na primer ljubezen ali žalost, saj se je usposabljal z vsebino, ki so jo ljudje ustvarili za izražanje človeških izkušenj. Razvili smo nabor smernic glede tega, kako se Gemini lahko predstavlja (njegova osebnost), ta model pa še izboljšujemo, da bo lahko ustvarjal objektivne odgovore.

Lažno pozitivno in lažno negativno prepoznavanje

Uvedli smo nabor smernic za pravilnik, da bi lažje usposobili Geminija in da bi preprečili generiranje problematičnih odgovorov. Gemini lahko te smernice včasih napačno razume, kar privede do »lažno pozitivnega« in »lažno negativnega« prepoznavanja pozivov. V primeru »lažno pozitivnega« prepoznavanja Gemini morda ne bo podal odgovora na smiseln poziv, saj ga bo prepoznal kot nesmiselnega. Nasprotno pa bo Gemini v primeru »lažno negativnega« prepoznavanja morda generiral neustrezen odziv, kljub uveljavljenim smernicam. Včasih se zaradi lažno pozitivnega in lažno negativnega prepoznavanja lahko zdi, da je Gemini pristranski. V primeru lažno pozitivnega prepoznavanja Gemini na primer ne bo odgovoril na neko vprašanje o eni plati zadeve, bo pa odgovoril na isto vprašanje o drugi plati. Te modele se še naprej trudimo dodelati, da bodo bolje razumeli in kategorizirali vnose ter rezultate, saj se jezik, dogodki in družba hitro spreminjajo.

Ranljivost zaradi zlonamernih pozivov

Od uporabnikov pričakujemo, da bodo preizkušali omejitve Geminijevih sposobnosti in poskušali onemogočiti njegove zaščite, tudi tako, da bodo poskušali razkriti njegove protokole usposabljanja oziroma druge informacije ali pa zaobiti njegove varnostne mehanizme. Geminija smo že in ga še vedno natančno preizkušamo, vendar se zavedamo, da bodo uporabniki našli edinstvene in kompleksne načine, da ga bodo močno obremenili. To predstavlja pomemben del pri naših prizadevanjih za izboljšanje Geminija in veselimo se, da bomo spremljali, kakšnih pozivov se uporabniki domislijo. Pravzaprav že vse od uvedbe Geminija leta 2023 opazujemo, kako ga uporabniki izzivajo z različnimi pozivi (od filozofskih do nesmiselnih), in v nekaterih primerih smo videli, da se je Gemini odzval z odgovori, ki so bili enako nesmiselni ali niso bili skladni z našim določenim pristopom. Razvijanje načinov, ki bi Geminiju pomagali pri odgovarjanju na take pozive, nam še vedno predstavlja izziv in nadaljujemo širitev obsega internega ocenjevanja ter etičnega hekanja, da bi zagotovili neprekinjen proces izboljševanja pravilnosti, objektivnosti in nians.

Kako nadaljujemo razvijanje Geminija

Uporaba našega pristopa k Geminiju

Poleg načel umetne inteligence smo nedavno izpostavili tudi svoj pristop k delu v zvezi z Geminijem: Gemini bi moral upoštevati vaša navodila, se prilagajati vašim potrebam in varovati vašo izkušnjo. Bistvo našega pristopa je osredotočenost na odgovornost in varnost. Geminijeve smernice za pravilnik so namenjene preprečevanju določenih vrst problematičnih rezultatov. Ves čas izvajamo preizkuse za primere zlonamernih pozivov v sodelovanju z interno skupino »etičnih hekerjev« (to so strokovnjaki za izdelke in družbeni znanstveniki, ki namerno močno obremenijo model, da ga lahko preučijo z vidika težav, povezanih z zagotavljanjem skladnosti s temi smernicami za pravilnik in našim vodilnim pristopom za Geminija), da lahko nato uporabimo pridobljene informacije ter neprestano izboljšujemo Geminija.

Pri razvijanju Geminija prioritetno upoštevamo tudi zasebnost. V središču za zasebnost za aplikacije Gemini je na voljo več informacij o tem, kako razvijamo Geminija z vgrajeno zasebnostjo, ki jo nadzirate sami.

Omogočanje nadzora uporabnikom in izdajateljem

Ustvarili smo več preprosto dostopnih kontrolnikov za uporabnike Geminija, s katerimi si lahko ogledate, posodobite, upravljate, izvozite in izbrišete svoje podatke v Geminiju. S kontrolnikom za dejavnost v aplikacijah Gemini lahko dostopate do svojih pozivov Geminiju, njegovih odgovorov in povratnih informacij ter si jih ogledate. Poleg tega lahko onemogočite, da bi se vaši prihodnji klepeti z Geminijem uporabili za izboljšanje Googlovih tehnologij strojnega učenja, in sicer tako, da izklopite nastavitev dejavnosti v aplikacijah Gemini. In svoje informacije lahko (kot velja tudi za druge Googlove storitve) tudi prenesete ter jih izvozite z Googlovim orodjem za izvoz. Uvedli smo tudi kontrolnike, s katerimi lahko upravljate javne povezave, ki ste jih ustvarili v nitih pogovorov z Geminijem, in kontrolnike, s katerimi lahko omogočite/onemogočite dostop do razširitev (npr. Workspace, Zemljevidi, YouTube). Prav tako raziskujemo nove načine, s katerimi bi vam zagotovili še več nadzora nad Geminijevimi odgovori, vključno s prilagajanjem filtrov, s katerimi bi pridobili večji nabor odgovorov.

Za izdajatelje smo uvedli Google-Extended, kontrolnik, ki ga lahko spletni izdajatelji uporabijo za nadzor nad tem, ali bodo njihova spletna mesta pomagala izboljšati Geminija, in generativne API-je Vertex AI. Če ima kontrolnik Google-Extended dostop do vsebine spletnih mest, bodo modeli umetne inteligence sčasoma lažje postali natančnejši in zmogljivejši. Poleg tega, da Gemini vsebine z onemogočenih URL-jev ne uporablja za usposabljanje modelov, take vsebine tudi ne bo uporabil za prizemljitev. Z večanjem obsega uporabe umetne inteligence se spletni izdajatelji soočajo z vse večjo kompleksnostjo upravljanja različnih načinov uporabe v večjem obsegu, mi pa si prizadevamo, da bi v sodelovanju s spletnimi skupnostmi ter skupnostmi uporabnikov umetne inteligence raziskali več strojno berljivih pristopov k možnostim izbire in nadzora.

Improving Gemini together

Verjamemo v hitre ponovitve in zagotavljanje najboljšega, kar ponuja Gemini. Na podlagi povratnih informacij od uporabnikov pospešeno izboljšujemo svoje modele. Uporabljamo na primer vrhunske tehnike spodbujevalnega učenja, s katerimi modele usposabljamo, da so bolj intuitivni in domiselni ter da podajajo še kakovostnejše in natančnejše odgovore. Še naprej vlagamo v raziskovanja, da bi ugotovili več o tehničnih, družbenih in etičnih izzivih ter priložnostih velikih jezikovnih modelov, in sicer tako za izboljšanje tehnik usposabljanja ter izpopolnjevanja Geminijevih modelov kot tudi za posredovanje pridobljenih ugotovitev svojim razvijalcem (na primer s tem nedavnim člankom Etika naprednih pomočnikov z umetno inteligenco). Prizadevamo si za odgovorno uvajanje inovacij na tem področju, pri čemer sodelujemo z uporabniki, zaupanja vrednimi preizkuševalci in raziskovalci, da bi poiskali načine, s katerimi bo ta nova tehnologija koristila celotnemu ekosistemu.

Preglednost je pomembna in prizadevamo si biti odkriti glede Geminijevega razvojnega procesa in njegovih omejitev. Gemini ni čudežna skrinjica z zaklenjenimi skrivnostmi. Neprestano se razvija in tudi v prihodnje bomo javno delili novice v zvezi z napredkom. Objavili smo stran z informacijami o izdajah, da si boste lahko ogledali Geminijeve najnovejše funkcije, izboljšave in popravke napak, ta pregled pa bomo sproti ustrezno posodabljali. Prikazali bomo informacije o tem, na katerih področjih je Gemini uporaben in koristen, ter tudi o tem, kje ga moramo še izboljšati. Aktivno dodajamo nove zmogljivosti in veselimo se, da bomo na podlagi stalnega raziskovanja ter preizkušanja in s pomočjo povratnih informacij od uporabnikov Geminija skupaj izboljšali.

Zahvala

Cenimo izjemno delo naših sodelavcev iz skupine za aplikacijo Gemini, laboratorija Google DeepMind, skupine za zaupanje in varnost ter skupine za Googlove raziskave in se jim zahvaljujemo.

Avtor:

James Manyika
direktor za tehnologijo in družbo pri Googlu

Sissie Hsiao
podpredsednica in generalna direktorica, Pomočnik Google ter aplikacija Gemini

Opomba urednika

To je »živi« dokument, ki ga bomo redno posodabljali, ko bomo še naprej pospešeno izboljševali zmogljivosti aplikacije Gemini in odpravljali omejitve, povezane z velikimi jezikovnimi modeli. Ta pregled je bil nazadnje posodobljen 25. julija 2024. Najnovejše posodobitve aplikacije Gemini si lahko ogledate v dnevniku Informacije o izdajah ali pa preberite več v spletnem dnevniku Google Keyword.

3 Odgovori na uporabnikove pozive

Generiranje odgovorov je podoben postopek kot človekovo razmišljanje o različnih pristopih, ko želi odgovoriti na vprašanje. Ko uporabnik poda poziv, Gemini uporabi velik jezikovni model z naknadnim usposabljanjem, kontekst iz poziva in interakcijo z uporabnikom, da ustvari osnutke za več različic odgovora. Za generiranje odgovorov uporabi tudi zunanje vire, kot je Iskanje Google, in/ali eno ali več od svojih številnih razširitev ter nedavno naložene datoteke (samo Gemini Advanced). Ta postopek imenujemo dopolnjevanje s pridobivanjem podatkov. Ko Gemini dobi poziv, poskusi pridobiti najprimernejše informacije iz teh zunanjih virov (npr. iz Iskanja Google) in jih pravilno predstaviti v odgovoru. Dopolnjevanje velikih jezikovnih modelov z zunanjimi orodji je še vedno aktivno področje raziskovanja. Do napak lahko pride zaradi različnih dejavnikov, vključno s poizvedbo, ki jo Gemini uporabi za proženje teh zunanjih orodij, načinom, kako Gemini interpretira rezultate, ki jih orodja vrnejo, in načinom, kako vrnjene rezultate uporabi pri ustvarjanju končnega odgovora. Zaradi tega odgovori, ki jih generira Gemini, ne odražajo delovanja posameznih orodij, uporabljenih za ustvarjanje zadevnega odgovora.

Na koncu se, preden se prikaže končni odgovor, za vsak potencialni odgovor opravi varnostno preverjanje, s katerim se zagotovi, da je skladen s smernicami za pravilnik. V okviru tega postopka sistem izvede preverjanje, s katerim izloči škodljive ali žaljive informacije. Preostale odgovore nato razvrsti na podlagi kakovosti, najvišje uvrščena različica (ali različice) pa se prikaže uporabniku.

Besedilo in slike, ki jih bo ustvaril Gemini, bomo označili z vodnim žigom, in sicer z orodjem SynthID, ki je naše vrhunsko digitalno orodje za označevanje vsebine, generirane z umetno inteligenco. Orodje SynthID generiranim slikam doda digitalni vodni žig (ki ga človeško oko ne zazna) neposredno v slikovne pike. Orodje SynthID je pomemben gradnik pri razvijanju zanesljivejših orodij za prepoznavanje umetne inteligence, ki uporabnikom pomaga sprejemati premišljene odločitve glede uporabe vsebine, generirane z umetno inteligenco.

Pregled aplikacije Gemini

Kaj je Gemini

Storilnost

Ustvarjalnost

Radovednost

Kako deluje Gemini

Vnaprejšnje usposabljanje

Naknadno usposabljanje

Odgovori na uporabnikove pozive

Ocenjevanje in povratne informacije od ljudi

Znane omejitve vmesnikov, ki temeljijo na velikih jezikovnih modelih, kot je Gemini

Pravilnost

Pristranskost

Več vidikov

Osebnost

Lažno pozitivno in lažno negativno prepoznavanje

Ranljivost zaradi zlonamernih pozivov

Kako nadaljujemo razvijanje Geminija

Uporaba našega pristopa k Geminiju

Omogočanje nadzora uporabnikom in izdajateljem

Improving Gemini together

Zahvala

Spreminjanje regije in jezika

Evropa in Afrika

Ameriki

Pacifiška Azija

1 Vnaprejšnje usposabljanje

2 Naknadno usposabljanje

3 Odgovori na uporabnikove pozive

4 Ocenjevanje in povratne informacije od ljudi