Prehľad aplikácie Gemini

Už dlho pozorujeme potenciál umelej inteligencie zvýšiť prístupnosť a užitočnosť informácií aj výpočtovej techniky pre ľudí. Dosiahli sme priekopnícke pokroky s rozsiahlymi jazykovými modelmi a zaznamenali sme skvelý rast v službách Googlu aj v rámci tohto odvetvia. Niekoľko rokov sme používali rozsiahle jazykové modely na pozadí, aby zlepšovali mnohé naše služby, napríklad na účely automatického dopĺňania viet v Gmaile, rozšírenia Prekladača Google a lepšieho porozumenia dopytom vo Vyhľadávaní Google. Rozsiahle jazykové modely naďalej používame v mnohých službách Googlu, ako aj na účely zaistenia fungovania aplikácie Gemini, ktorá umožňuje ľuďom priamo spolupracovať s generatívnou umelou inteligenciou. Chceme, aby aplikácia Gemini bola najužitočnejším a najosobnejším asistentom s umelou inteligenciou, ktorá používateľom poskytuje priamy prístup k najnovším modelom umelej inteligencie od Googlu.

Nachádzame sa síce v dôležitom bode zlomu a povzbudzuje nás všeobecné nadšenie z generatívnej umelej inteligencie, ale táto technológia je stále v ranej fáze. V tomto vysvetlení je opísaný náš prístup k práci na aplikácii Gemini („Gemini“) vrátane jej mobilného a webového prostredia – teda čo to je, ako funguje a aké sú jej aktuálne schopnosti aj obmedzenia. Náš prístup k vytváraniu Gemini sa bude vyvíjať podľa toho, ako sa vyvíja technológia, na ktorej je založený, a ako sa učíme z prebiehajúceho výskumu, skúseností a spätnej väzby od používateľov.

Čo je Gemini

Gemini je rozhranie vedúce do viacrežimového rozsiahleho jazykového modelu (spracúvanie textu, zvuku, obrázkov a ďalšieho obsahu). Gemini vychádza zo špičkového výskumu v oblasti rozsiahlych jazykových modelov, ktorý sa začal v roku 2013 článkom Word2Vec navrhujúcim nové architektúry modelu, ktoré mapovali slová ako matematické pojmy. Následne bol v roku 2015 predstavený neurálny konverzačný model. Táto architektúra ukázala, ako môžu modely predpovedať ďalšiu vetu v konverzácii na základe predchádzajúcej vety či viet, čo vedie k prirodzenejším konverzačným prostrediam. Potom nasledovala naša prevratná práca na architektúre Transformer z roka 2017 a možnosti četu so sledom viacerých otázok a odpovedí z roka 2020, ktoré preukázali ešte pôsobivejší pokrok v generatívnom jazyku.

Gemini (ktorý sa vtedy nazýval Bard) sme pôvodne predstavili ako experiment v marci 2023 v súlade s našimi princípmi umelej inteligencie. Odvtedy sa naň používatelia obracajú, keď potrebujú napísať pôsobivé správy, ladiť náročné programy, prísť s nápadmi na nadchádzajúce udalosti, pomôcť naučiť sa zložité koncepty a vykonať mnoho ďalších vecí. Dnes je Gemini všestranný nástroj s umelou inteligenciou, ktorý vám môže pomôcť rôznymi spôsobmi. Gemini už pomáha ľuďom, aby boli produktívnejší a kreatívnejší, a podporuje ich zvedavosť, pričom pravidelne pridávame nové funkcie a inovácie.

Produktivita

Gemini vám v prvom rade ušetrí čas. Povedzme napríklad, že potrebujete získať súhrn rozsiahleho výskumného dokumentu. Google vám umožní ho nahrať a poskytne užitočnú syntézu. Gemini vám môže pomôcť aj s programovacími úlohami. Programovanie sa rýchlo stalo jedným z jeho najpopulárnejších uplatnení.

Tvorivosť

Gemini môže oživiť vaše nápady a podnietiť vašu kreativitu. Ak napríklad píšete blogový príspevok, Gemini môže vytvoriť osnovu a vygenerovať obrázky, ktoré budú váš príspevok názorne objasňovať. Čoskoro sprístupníme gemy, ktoré vám umožnia prispôsobiť si Gemini konkrétnymi inštrukciami a nastaviť ho tak, aby bol odborníkom na nejakú tému, čo vám umožní dosiahnuť osobné ciele.

Zvedavosť

Gemini môže byť odrazovým mostíkom k prieskumu nápadov a čohokoľvek, o čom sa chcete dozvedieť viac. Napríklad môže jednoducho vysvetliť komplexnú koncepciu alebo zobraziť relevantné štatistiky týkajúce sa nejakej témy či obrázka. Čoskoro bude tieto štatistiky párovať s odporúčaným obsahom z internetu, aby sa dozvedel viac o konkrétnych témach.

Schopnosti Gemini sa rýchlo rozširujú. Čoskoro budete môcť namieriť kameru svojho telefónu na nejaký objekt, napríklad Most Golden Gate v USA, a požiadať Gemini, aby vám povedal farbu jeho náteru (pre zaujímavosť dodávame, že je to medzinárodná oranžová). Budete ho môcť aj požiadať, aby vám v reštaurácii pomohol s menu v cudzom jazyku a odporučil jedlo, ktoré vám bude pravdepodobne chutiť. Toto sú iba dva príklady nových schopností, ktoré čoskoro v Gemini sprístupníme.

Gemini samozrejme dôsledne cvičíme a monitorujeme, aby jeho odpovede boli s väčšou pravdepodobnosťou spoľahlivé a spĺňali vaše očakávania. Navyše sa radíme s odborníkmi v jednotlivých odvetviach, pedagógmi, zákonodarcami, vedúcimi firiem, vedúcimi občianskych a ľudskoprávnych iniciatív aj autormi obsahu, aby sme preskúmali nové uplatnenia, riziká a obmedzenia tejto novovznikajúcej technológie.

Ako Gemini funguje

Známe obmedzenia rozhraní založených na rozsiahlom jazykovom modeli, ako je Gemini

Gemini je iba jednou časťou nášho pretrvávajúceho úsilia vyvíjať rozsiahle jazykové modely zodpovedne. V priebehu tejto práce sme zistili a prediskutovali viacero obmedzení spojených s rozsiahlymi jazykovými modelmi. Tu sa zameriame na šesť oblastí prebiehajúceho výskumu:

Presnosť: odpovede od Gemini môžu byť nepresné, obzvlášť vtedy, keď sa spýtate na komplexné faktické témy.
Zaujatosť: odpovede od Gemini môžu odzrkadľovať zaujatosť prítomnú v jeho cvičných údajoch.
Viaceré perspektívy: môže sa stať, že v odpovediach od Gemini nebudú prezentované rôzne pohľady.
Osobnosť: odpovede od Gemini môžu nesprávne naznačovať, že má osobné názory či pocity.
Falošne pozitívne a negatívne výsledky: Gemini nemusí odpovedať na niektoré primerané pokyny a môže poskytovať neprimerané odpovede na iné.
Nedostatočné zabezpečenie proti zámerne konfliktným pokynom: používatelia nájdu spôsoby, ako Gemini podrobovať stresovým testom, a to nezmyselnými pokynmi alebo otázkami, ktoré ľudia v skutočnom svete kladú iba výnimočne.

Pokračujeme v skúmaní nových prístupov a oblastí na zlepšenie výkonnosti v každej z týchto oblastí.

Presnosť

Gemini je napojený na fakty vychádzajúce z toho, ako Google rozumie smerodajným informáciám. Je cvičený na generovanie odpovedí, ktoré sú relevantné z hľadiska kontextu vášho pokynu a v súlade s tým, čo hľadáte. Ale rovnako ako všetky rozsiahle jazykové modely, aj Gemini môže niekedy sebavedome a presvedčivo vygenerovať odpovede, ktoré obsahujú nepresné či zavádzajúce informácie.

Rozsiahle jazykové modely fungujú tak, že predpovedajú ďalšie slovo alebo poradie slov, avšak ešte nie sú úplne schopné samostatne odlíšiť presné informácie od nepresných. Zaznamenali sme, ako Gemini prezentoval odpovede obsahujúce nepresné informácie alebo dokonca vymyslené nesprávne údaje (napr. skresľoval, ako bol vycvičený, alebo navrhol názov knihy, ktorá neexistuje). V reakcii na to sme vytvorili funkcie, ako je overenie. Tá pomocou Vyhľadávania Google nájde obsah, ktorý vám pomôže zhodnotiť odpovede od Gemini, a poskytne vám odkazy na zdroje, ktoré vám pomôžu potvrdiť si informácie poskytnuté Gemini.

Zaujatosť

Cvičné údaje vrátane tých, ktoré pochádzajú z verejne dostupných zdrojov, odzrkadľujú rôznorodé perspektívy a názory. Naďalej skúmame, ako tieto údaje používať tak, aby sa zaistilo, že odpoveď rozsiahleho jazykového modelu bude zahŕňať viaceré uhly pohľadu, ale zároveň sa minimalizujú nepresné prehnané zovšeobecnenia a zaujatosť.

Medzery, zaujatosť a prehnané zovšeobecnenia v cvičných údajoch sa môžu odzrkadliť vo výstupoch modelu, keď sa pokúša predpovedať pravdepodobné odpovede na pokyn. Všimli sme si, že tieto problémy sa prejavujú viacerými spôsobmi (napr. odpovede reflektujúce iba jednu kultúru alebo demografickú skupinu, sprostredkovanie problematických prehnaných zovšeobecnení, zaujatosť v súvislosti s pohlavím, náboženstvom alebo etnicitou, prípadne propagácia len jedného uhlu pohľadu). V rámci niektorých tém sa vyskytujú dátové vákuá. Inak povedané, ide o prípady, kedy neexistuje dostatok spoľahlivých informácií o danej téme, aby sa rozsiahly jazykový model o nej poučil a potom prezentoval vhodné predpokladané dopyty. Výsledkom môžu byť nekvalitné alebo nepresné odpovede. Pokračujeme v spolupráci s expertmi v príslušných doménach a rôznymi komunitami, aby sme získali hĺbkové odborné znalosti zo zdrojov mimo Googlu.

Viaceré perspektívy

Gemini je navrhnutý tak, aby v prípade subjektívnych tém poskytoval používateľom viaceré perspektívy, pokiaľ nepožiadajú o konkrétny uhol pohľadu. Ak napríklad Gemini zadáte pokyn, aby poskytol informácie o niečom, čo sa nedá overiť faktami z primárnych alebo smerodajných zdrojov, napríklad subjektívny názor na to, čo je „najlepšie“ alebo „najhoršie“, môže odpovedať spôsobom odzrkadľujúcim viaceré uhly pohľadu. Rozsiahle jazykové modely ako Gemini sa však cvičia na obsahu, ktorý je verejne dostupný na internete, takže môžu odzrkadľovať pozitívne či negatívne názory konkrétnych politikov, celebrít alebo iných známych osobností, prípadne dokonca zaradiť jednostranné názory týkajúce sa kontroverzných spoločenských či politických záležitostí. Gemini nesmie na tieto témy odpovedať spôsobom podporujúcim nejaký konkrétny uhol pohľadu, preto ho cvičíme na spätnej väzbe k týmto typom odpovedí, aby ich lepšie riešil.

Osobnosť

Gemini môže občas vygenerovať odpovede, ktoré podľa všetkého naznačujú, že má názory či pocity (napríklad cíti lásku alebo smútok), pretože bol cvičený na jazyku, ktorým ľudia vyjadrujú, čo vnútorne prežívajú. Vyvinuli sme súpravu pokynov súvisiacich s tým, ako Gemini môže prezentovať samého seba (teda svoju osobnosť), a pokračujeme v detailnom dolaďovaní modelu tak, aby poskytoval objektívne odpovede.

Falošne pozitívne a negatívne výsledky

Zaviedli sme súbor pokynov k pravidlám, aby sme pomohli cvičiť Gemini a predchádzať generovaniu problematických odpovedí. Gemini môže tieto pokyny niekedy nesprávne interpretovať a vytvoriť tak falošne pozitívne a negatívne výsledky. V prípade falošne pozitívneho výsledku nemusí Gemini poskytnúť odpoveď na primeraný pokyn, pretože ho nesprávne interpretuje ako nevhodný. V prípade falošne negatívneho výsledku môže napriek zavedeným pokynom vygenerovať nevhodnú odpoveď. Niekedy môžete z výskytu falošne pozitívnych a negatívnych výsledkov nadobudnúť dojem, že Gemini je zaujatý: napríklad falošne pozitívny výsledok môže spôsobiť, že Gemini nezodpovie otázku týkajúcu sa jednej stránky nejakého problému, ale zodpovie rovnakú otázku týkajúcu sa jeho druhej stránky. Tieto modely ďalej dolaďujeme, aby viac rozumeli vstupom aj výstupom a lepšie ich kategorizovali, keďže jazyk, udalosti a spoločnosť sa rýchle vyvíjajú.

Nedostatočné zabezpečenie proti zámerne konfliktným pokynom

Očakávame, že používatelia budú testovať hranice toho, čo Gemini dokáže, a pokúsia sa narušiť jeho ochranné prvky, napríklad sa pokúsia dosiahnuť, aby prezradil svoje cvičebné protokoly či iné informácie, prípadne skúsia obísť jeho bezpečnostné mechanizmy. Gemini sme dôsledne testovali a naďalej testujeme, ale vieme, že používatelia nájdu jedinečné a komplexné spôsoby, ako ho ďalej podrobovať stresovým testom. Je to dôležitou súčasťou jeho dolaďovania. Tešíme sa, že ho naučíme nové pokyny, ktoré používatelia vymyslia. Od uvedenia Gemini na trh v roku 2023 sme skutočne videli, ako ho používatelia skúšajú pokynmi, ktoré siahajú od filozofických až po nezmyselné. V niektorých prípadoch sme videli, že Gemini odpovedal rovnako nezmyselne alebo odpoveďami, ktoré neboli v súlade s naším deklarovaným prístupom. Vymyslieť metódy, ktoré pomôžu Gemini odpovedať na tieto typy pokynov, je pretrvávajúca výzva. Naďalej rozširujeme naše interné hodnotenia a testy účinnosti kybernetickej bezpečnosti v snahe o trvalé zlepšovanie presnosti, ale aj objektívnosti a nuáns.

Ako ďalej vyvíjame Gemini

Uplatnenie nášho prístupu ku Gemini

Popri našich princípoch umelej inteligencie sme nedávno dali vyhlásenie o našom prístupe k práci na Gemini: Gemini musí vychádzať z pokynov, prispôsobiť sa vašim potrebám a zabezpečovať vaše prostredie. Kľúčovou časťou nášho prístupu je zameranie na zodpovednosť a bezpečnosť. Cieľom pokynov k pravidlám v Gemini je predchádzať určitým typom problematických výstupov. Zaisťujeme prebiehajúce testovanie zámerne konfliktných pokynov internými členmi tímu Red. Ide o odborníkov na služby a sociálnych vedcov, ktorí zámerne podrobujú model stresovým testom, aby zistili, či v ňom nedochádza k problémom pri zosúladení s týmito pokynmi k pravidlám a naším smerodajným prístupom ku Gemini, aby sme mohli uplatniť ich zistenia a neustále zlepšovať Gemini.

Pri vývoji Gemini je ďalším zohľadňovaným kľúčovým faktorom aj ochrana súkromia. V centre informácií o ochrane súkromia v aplikáciách Gemini nájdete ďalšie informácie o tom, ako sa pri vytváraní Gemini zameriavame na ochranu súkromia, a ako máte všetko pod kontrolou.

Umožnenie ovládania používateľmi a vlastníkmi

Vytvorili sme rôzne ľahko prístupné ovládacie prvky pre používateľov Gemini, aby ste v ňom mohli kontrolovať, aktualizovať, spravovať, exportovať a odstraňovať svoje údaje. Prostredníctvom Riadenia aktivity v aplikáciách Gemini máte prístup k svojim pokynom pre Gemini aj k odpovediam a spätnej väzbe. Tu ich môžete aj skontrolovať. Okrem toho môžete zabrániť, aby sa pomocou vašich budúcich četov s Gemini zlepšovali technológie strojového učenia Googlu tak, že vypnete nastavenie Aktivita v aplikáciách Gemini. Rovnako ako v iných službách Googlu môžete svoje informácie aj stiahnuť a exportovať prostredníctvom nástroja Takeout od Googlu. Navyše poskytujeme ovládacie prvky umožňujúce spravovať verejné odkazy na vlákna v Gemini, ktoré ste vytvorili, aj také, ktoré vám umožňujú zapnuť a vypnúť prístup k rozšíreniam (napr. Workspace, Mapy, YouTube). Skúmame aj nové spôsoby, ako vám poskytnúť väčšiu kontrolu nad odpoveďami od Gemini (vrátane možnosti upraviť filtre, aby prezentoval širší rad odpovedí).

Pre vlastníkov sme predstavili funkciu Google-Extended. Ide o ovládací prvok, pomocou ktorého môžu vlastníci webov riadiť, či ich weby majú pomáhať zlepšovať generatívne rozhrania API Gemini a Vertex AI. Umožnenie prístupu funkcii Google-Extended k obsahu webov môže pomôcť časom zlepšiť presnosť a schopnosti modelov umelej inteligencie. Gemini nebude cvičiť modely pomocou obsahu z odhlásených webových adries a nebude sa pomocou neho ani napájať na fakty. Uplatnenia umelej inteligencie sa rozširujú, takže vlastníci webov budú vo veľkom rozsahu čeliť narastajúcej komplexnosti spravovania rôzneho použitia. Verní svojmu záväzku zapájame internetové komunity a komunity umelej inteligencie, aby sme preskúmali ďalšie strojovo čitateľné prístupy k výberu a ovládaniu.

Improving Gemini together

Veríme v rýchle zdokonaľovanie a sprístupnenie najlepších schopností Gemini svetu. Spätná väzba od používateľov urýchlila zlepšovanie našich modelov. Napríklad pomocou špičkových techník učenia na základe spätnej väzby od ľudí cvičíme naše modely, aby boli intuitívnejšie a imaginatívnejšie, ale aj aby odpovedali ešte kvalitnejšie a presnejšie. Naďalej investujeme do výskumu, aby sme sa dozvedeli viac o technických, spoločenských a etických výzvach aj príležitostiach rozsiahlych jazykových modelov, aby sme nielen zlepšili techniky výcviku a doladenia modelu Gemini, ale sa aj podelili o naše zistenia s výskumníkmi, napríklad týmto nedávnym článkom o etike pokročilých asistentov s umelou inteligenciou. Zaväzujeme sa zodpovedne inovovať tento priestor a spolupracovať s používateľmi, dôveryhodnými testermi aj výskumníkmi na nájdení spôsobov, ako by sa mohla táto nová technológia stať výhodnou pre celý ekosystém.

Transparentnosť je dôležitá. Zaväzujeme sa zachovať si otvorenosť o procesoch a obmedzeniach pri vývoji Gemini. Gemini nie je čarovná čierna skrinka. Neustále sa vyvíja a my budeme naďalej zdieľať aktuality o našom pokroku. Predstavili sme stránku Aktualizácie služby, na ktorej si môžete pozrieť najnovšie funkcie, zlepšenia a opravy chýb v Gemini. Tento prehľad budeme náležite aktualizovať. Identifikujeme oblasti, kde je Gemini užitočný a nápomocný, ale aj kde sa musíme ďalej zdokonaľovať a zlepšovať. Aktívne pridávame nové schopnosti a tešíme sa, ako budeme Gemini prostredníctvom prebiehajúceho výskumu, testovania a spätnej väzby od používateľov spoločne zlepšovať.

Poďakovania

Ceníme si fantastickú prácu našich kolegov z tímu pre aplikáciu Gemini, tímu pre dôveru a bezpečnosť, ale aj tímov Google DeepMind a Google Research, ktorým za ňu ďakujeme.

Autori:

James Manyika
viceprezident pre výskum, technológiu a spoločenské záležitosti

Sissie Hsiaová
viceprezidentka a generálna riaditeľka pre Asistenta Google a aplikácie Gemini

Redakčná poznámka

Toto je otvorený dokument, ktorý sa bude pravidelne aktualizovať, keď budeme ďalej rýchlym tempom zlepšovať schopnosti aplikácie Gemini a odstraňovať interné obmedzenia rozsiahlych jazykových modelov. Tento prehľad bol naposledy aktualizovaný 25. júla 2024. Najnovšie aktuality o aplikácii Gemini nájdete v denníku Aktualizácie služby alebo si prečítajte ďalšie informácie v blogu Google Keyword.

3 Odpovede na pokyny používateľov

Generovanie odpovedí je podobné spôsobu, akým môže človek prichádzať s rôznymi prístupmi k odpovedaniu na nejakú otázku. Keď používateľ zadá pokyn, Gemini vytvorí koncepty viacerých verzií odpovede pomocou následne cvičeného rozsiahleho jazykového modelu, kontextu pokynu a interakcie s používateľom. Odpovede generuje aj pomocou externých zdrojov, ako sú Vyhľadávanie Google, jedno z jeho viacerých rozšírení a nedávno nahrané súbory (iba Gemini Advanced). Tento proces sa nazýva rozšírené získavanie informácií. Po zadaní pokynu sa Gemini pokúsi z týchto externých zdrojov (napr. Vyhľadávanie Google) získať tie najrelevantnejšie informácie a presne ich prezentovať vo svojej odpovedi. Rozšírenie rozsiahleho jazykového modelu pomocou externých nástrojov je aktívna oblasť výskumu. Existuje viacero spôsobov, ako môže dôjsť k chybám. Môžu byť napríklad spôsobené dopytom, pomocou ktorého Gemini interaguje s týmito externými nástrojmi, alebo tým, ako Gemini interpretuje výsledky vrátené týmito nástrojmi, či tým, ako sa pomocou týchto vrátených výsledkov vygeneruje finálna odpoveď. Preto by odpovede generované Gemini nemali odzrkadľovať výkonnosť jednotlivých nástrojov, pomocou ktorých bola daná odpoveď vytvorená.

V poslednom kroku pred zobrazením finálnej odpovede prechádza každá potenciálna odpoveď bezpečnostnou kontrolou, aby sa zaistilo, že spĺňa vopred stanovené pokyny k pravidlám. Tento proces zaistí dôkladnú kontrolu, v rámci ktorej sa odfiltrujú škodlivé či urážlivé informácie. Zostávajúce odpovede sú potom zoradené podľa kvality, pričom verzie s najvyšším skóre sú prezentované používateľovi.

Okrem toho označujeme textové aj obrázkové výstupy od Gemini vodoznakom pomocou našej špičkovej súpravy digitálnych nástrojov SynthID na označovanie obsahu generovaného umelou inteligenciou vodoznakmi. V prípade vygenerovaných obrázkov pridáva SynthID priamo do pixelov digitálny vodoznak, ktorý je pre ľudské oko neviditeľný. SynthID je dôležitý stavebný prvok pri vývoji spoľahlivejších identifikačných nástrojov umelej inteligencie a môže pomôcť ľuďom informovane sa rozhodovať o tom, ako interagujú s obsahom generovaným umelou inteligenciou.

Prehľad aplikácie Gemini

Čo je Gemini

Produktivita

Tvorivosť

Zvedavosť

Ako Gemini funguje

Predbežný výcvik

Následný výcvik

Odpovede na pokyny používateľov

Spätná väzba od ľudí a hodnotenie

Známe obmedzenia rozhraní založených na rozsiahlom jazykovom modeli, ako je Gemini

Presnosť

Zaujatosť

Viaceré perspektívy

Osobnosť

Falošne pozitívne a negatívne výsledky

Nedostatočné zabezpečenie proti zámerne konfliktným pokynom

Ako ďalej vyvíjame Gemini

Uplatnenie nášho prístupu ku Gemini

Umožnenie ovládania používateľmi a vlastníkmi

Improving Gemini together

Poďakovania

Zmeniť región a jazyk

Európa a Afrika

Amerika

Ázia – Tichomorie

1 Cvičenie vopred

2Následné cvičenie

3 Odpovede na pokyny používateľov

4 Spätná väzba od ľudí a hodnotenie