[go: up one dir, main page]

Skip to main content

Gemini ઍપનો ઓવરવ્યૂ

અમે લોકો માટે માહિતીને અને ગણતરી કરવાને વધુ ઍક્સેસિબલ બનાવવામાં AIની ક્ષમતા લાંબા સમયથી જોઈ છે. અમે વિશાળ ભાષા મૉડલ (LLMs) પર પહેલકારી વિકાસ કર્યો છે અને સમગ્ર Google પર અને આ ક્ષેત્રમાં વ્યાપક રીતે પ્રગતિ કરી છે. અનેક વર્ષો સુધી, અમે અમારી ઘણી પ્રોડક્ટને બહેતર બનાવવા માટે બૅકગ્રાઉન્ડમાં LLMs લાગુ કર્યા છે, જેમ કે Gmailમાં વાક્યોને ઑટોમૅટિક રીતે પૂર્ણ કરવા, Google Translateનું વિસ્તરણ કરવા અને Google Searchમાં અમને ક્વેરીને વધુ સારી રીતે સમજવામાં અમને મદદ કરવા. અમે ઘણી Googleની સેવાઓ માટે અને Gemini ઍપને શક્તિશાળી બનાવવા માટે LLMsનો ઉપયોગ કરીએ છીએ, જેનાથી લોકોને જનરેટિવ AI સાથે સીધો સહયોગ કરવાની મંજૂરી મળે છે. અમે ઇચ્છીએ છીએ કે Gemini ઍપ સૌથી મદદરૂપ અને વ્યક્તિગત AI આસિસ્ટંટ બને, જેથી વપરાશકર્તાઓને Googleના બધા લેટેસ્ટ AI મૉડલનો સીધો ઍક્સેસ મળે.

અમે અત્યારે મહત્ત્વપૂર્ણ વળાંકે છીએ અને જનરેટિવ AIની આજુબાજુ ઉત્પન્ન થયેલા વ્યાપક રોમાંચથી પ્રોત્સાહિત છીએ, પણ આ ટેક્નોલોજી માટે આ હજુ આરંભિક દિવસો છે. આ વર્ણન રૂપરેખા આપે છે કે Gemini ઍપ ("Gemini") પર કાર્ય કરવાનો અમારો અભિગમ કેવો છે, જેમાં તેના મોબાઇલ અને વેબ અનુભવોનો — તે શું છે, તેની કાર્ય કરવાની રીત અને તેની હાલની ક્ષમતાઓ તથા મર્યાદાઓનો સમાવેશ થાય છે. Geminiની આંતરિક ટેક્નોલોજીનો વિકાસ થશે અને અમે અત્યારે ચાલી રહેલા રિસર્ચ, મળી રહેલા અનુભવ અને વપરાશકર્તાના પ્રતિસાદોમાંથી જાણકારી મેળવીશું તેની સાથે Geminiના નિર્માણમાં વિકાસ થશે એવો અમારો અભિગમ છે.

Gemini શું છે

Gemini એ મલ્ટિમૉડલ LLMનું ઇન્ટરફેસ છે (જે ટેક્સ્ટ, ઑડિયો, ફોટા અને બીજું ઘણું હૅન્ડલ કરે છે). Gemini એ LLMsમાં Googleના અત્યાધુનિક રિસર્ચ પર આધારિત છે, જેની શરૂઆત વર્ષ 2013માં Word2Vec પેપરથી થઈ હતી, જેમાં શબ્દોને ગણિતીય કલ્પના તરીકે મૅપ કરતા નવીન મૉડલ આર્કિટેક્ચર રજૂ કરવામાં આવ્યા, જેના પછી વર્ષ 2015માં ન્યુરલ વાતચીતલક્ષી મૉડલની રજૂઆત થઈ. આ ફ્રેમવર્ક દ્વારા અગાઉના વાક્ય કે વાક્યોના આધારે મૉડલ વાતચીતમાં આગલા વાક્યનું અનુમાન કઈ રીતે કરે છે તે દર્શાવવામાં આવ્યું, જે વધુ પ્રાકૃતિક વાતચીતાત્મક અનુભવો તરફ દોરી જાય છે. આના પછી વર્ષ 2017માં ટ્રાન્સફૉર્મર વિશે અને વર્ષ 2020માં મલ્ટિ-ટર્ન ચૅટ ક્ષમતાઓ વિશે અમારું પ્રગતિશીલ કાર્ય થયું, જેમાં જનરેટિવ ભાષાની વધુ ફરજિયાત પ્રક્રિયા દર્શાવાઈ.

અમે પ્રારંભમાં માર્ચ 2023માં અમારા AI સંબંધિત સિદ્ધાંતો અનુસાર (તે સમયે Bard કહેવાતું) પ્રયોગ તરીકે Gemini લૉન્ચ કર્યું હતું. ત્યારથી, વપરાશકર્તાઓ અનિવાર્ય ઇમેઇલ લખવા, જટિલ કોડિંગ સમસ્યાઓ ડિબગ કરવા, આગામી ઇવેન્ટ માટે સામૂહિક રીતે સમસ્યાનું સમાધાન કરવાના આઇડિયા માટે, અઘરી કલ્પનાઓ શીખવામાં મદદ મેળવવા અને બીજું ઘણું કરવા માટે Geminiનો ઉપયોગ કરવા તરફ વળ્યાં છે. આજે, Gemini એક વિવિધ પ્રતિભાવાળું AI ટૂલ છે જે તમને અનેક રીતે મદદ કરી શકે છે. અમે જોઈએ છીએ કે Gemini લોકોને વધુ પ્રોડક્ટિવ, વધુ રચનાત્મક અને વધુ જિજ્ઞાસુ થવામાં મદદ કરે છે અને અમે નિયમિતપણે નવા કાર્યો અને શોધ ઉમેરીએ છીએ.

પ્રૉડક્ટિવિટી

સૌપ્રથમ જણાવવાનું કે, Gemini તમારો સમય બચાવે છે. ઉદાહરણ તરીકે, માનો કે તમારે મોટા રિસર્ચ દસ્તાવેજનો સારાંશ બનાવવાનો છે; Gemini થકી તમે તેને અપલોડ કરી શકો છો અને ઉપયોગી સમન્વય મેળવી શકો છો. Gemini કોડિંગના ટાસ્કમાં પણ મદદ કરી શકે છે અને કોડિંગ ઝડપથી તેની સૌથી લોકપ્રિય ઍપ્લિકેશનોમાંની એક બની ગઈ છે.

ક્રિએટિવિટી

Gemini તમારા આઇડિયાને જીવંત બનાવવામાં અને તમારી રચનાત્મકતાને જગાવવામાં પણ મદદ કરી શકે છે. ઉદાહરણ તરીકે, જો તમે બ્લૉગ પરની પોસ્ટ લખી રહ્યા હો, તો Gemini તમારી પોસ્ટની આઉટલાઇન બનાવી શકે છે અને તેને હાઇલાઇટ કરવા માટે ફોટા જનરેટ કરી શકે છે. અને ટૂંક સમયમાં Gems સાથે આવી રહ્યાં છીએ, તમે વિશિષ્ટ સૂચનાઓ વડે Geminiને કસ્ટમાઇઝ કરી શકશો અને તમારા વ્યક્તિગત લક્ષ્યો હાંસલ કરવામાં મદદ માટે તેની પાસે વિષયના નિષ્ણાત તરીકેનું કાર્ય કરાવી શકશો.

જિજ્ઞાસા

તમારે તમારા જે આઇડિયા અને વિષયો બાબતે વધુ જાણવું હોય તેના માટે Gemini શ્રેષ્ઠ પસંદગી હોઈ શકે છે. દાખલા તરીકે, તે જટિલ કલ્પનાને સરળ રીતે સમજાવી શકે છે અથવા કોઈ વિષય કે ફોટા માટે સુસંગત માહિતી પૂરી પાડી શકે છે. અને ટૂંક સમયમાં, તે વિશિષ્ટ વિષયો વિશે વધુ જાણવા માટે સમગ્ર વેબમાંના સુઝાવ આપવામાં આવતા કન્ટેન્ટ વડે આ જાણકારી સાથે જોડાણ કરશે.

Geminiની ક્ષમતાઓ ખૂબ ઝડપથી વિસ્તરી રહી છે -- ટૂંક સમયમાં, તમારા ફોનના કૅમેરાને કોઈ પદાર્થની સામે ચીંધીને, કહી શકશો, જેમ કે ગોલ્ડન ગેટ બ્રિજ અને Geminiને તેના પેઇન્ટના રંગ વિશે તમને જણાવવાનું કહી શકશો (તમને ખ્યાલ ન હોય તો એ "આંતરરાષ્ટ્રીય કેસરી" છે). તમે Geminiને રેસ્ટોરન્ટનું મેનૂ બીજી ભાષામાં નૅવિગેટ કરવાનું કહી શકશો અને તમને ભાવી શકે તેવી વાનગીની ભલામણ કરવાનું કહી શકશો. ટૂંક સમયમાં Geminiમાં આવી રહેલી નવી ક્ષમતાઓના આ તો માત્ર બે ઉદાહરણો છે.

અલબત્ત, અમે Geminiને ખૂબ સખ્તાઈથી ટ્રેનિંગ આપીએ છીએ અને તેને મૉનિટર કરીએ છીએ જેથી તેના જવાબો વિશ્વસનીય અને તમારી અપેક્ષાઓને અનુરૂપ હોય. અમે નવી ઍપ્લિકેશનો, જોખમો વિશે શોધખોળ કરવા અને આ ઉભરી રહેલી ટેક્નોલોજીની મર્યાદાઓ જાણવા માટે, ઉદ્યોગના નિષ્ણાતો, શિક્ષકો, પૉલિસી બનાવનારાઓ, વ્યાવસાયિક અગ્રણીઓ, નાગરિક અને માનવ અધિકારોના નેતાઓ અને કન્ટેન્ટ નિર્માતાઓ સાથે પણ વાત કરીએ છીએ.

Geminiની કાર્ય કરવાની રીત

1

ટ્રેનિંગ પહેલાં

2

ટ્રેનિંગ-પછી

3

વપરાશકર્તાના પ્રૉમ્પ્ટના જવાબો

4

માનવ પ્રતિસાદ અને મૂલ્યાંકન

Gemini જેવા LLM-આધારિત ઇન્ટરફેસની જાણીતી મર્યાદાઓ

Gemini એ જવાબદારીપૂર્વક LLMs ડેવલપ કરવાના અમારા નિરંતર પ્રયાસનો માત્ર એક ભાગ છે. આ કાર્યના સમગ્ર સમયગાળા દરમિયાન, અમે LLMs સાથે સંકળાયેલી અનેક મર્યાદાઓ શોધી છે અને તેના વિશે ચર્ચા કરી છે. અહીં અમે રિસર્ચના સાતત્ય માટે છ વિસ્તારો પર ફોકસ કરીએ છીએ:

  • ચોકસાઈ: Geminiના જવાબો ખોટા હોઈ શકે છે, ખાસ કરીને જ્યારે તેને જટિલ અથવા વાસ્તવિક વિષય વિશે પૂછવામાં આવે ત્યારે.

  • બાયસ: Geminiના જવાબોમાં તેના ટ્રેનિંગ ડેટામાંનો બાયસ પ્રદર્શિત થઈ શકે છે.

  • એકથી વધુ દૃષ્ટિકોણો: Geminiના જવાબોમાં વિવિધ મંતવ્યોની ગેરહાજરી હોઈ શકે છે.

  • પર્સોના: Geminiના જવાબો ખોટું સૂચવી શકે છે કે તે વ્યક્તિગત મંતવ્યો અથવા લાગણીઓ ધરાવે છે.

  • ખોટાં તથ્યો અને ખોટા નકાર: એવું બની શકે કે Gemini કેટલાક ઉચિત પ્રૉમ્પ્ટને જવાબ ન આપે અને અન્યને અનુચિત જવાબો આપે.

  • ખેપાની પ્રૉમ્પ્ટ પ્રતિ સંવેદનશીલતા: વપરાશકર્તાઓ બુદ્ધિહીન પ્રૉમ્પ્ટ વડે અથવા વાસ્તવિક જગતમાં ભાગ્યે જ પૂછાતા હોય તેવા સવાલો વડે Geminiની બુદ્ધિમત્તાનું પરીક્ષણ કરી શકે છે.

અમે આ દરેક ક્ષેત્રમાં બહેતર પર્ફોર્મન્સ માટે નવા અભિગમ અને ક્ષેત્રોની શોધખોળ કરતા રહીએ છીએ.

ચોકસાઈ

Googleની આધિકારિક માહિતી સમજવામાં Gemini ખૂબ વાસ્તવવાદી છે અને તેને એવા જવાબો આપવા માટે ટ્રેનિંગ આપવામાં આવે છે જે તમારા પ્રૉમ્પ્ટના સંદર્ભ સાથે સુસંગત હોય અને તમે જે શોધતા હો તેને અનુરૂપ હોય. પણ બધા LLMsની જેમ, Gemini ક્યારેક આત્મવિશ્વાસથી અને ખાતરીપૂર્વક એવા જવાબો જનરેટ કરી શકે છે જેમાં ખોટી અથવા ગેરમાર્ગે દોરતી માહિતી હોય.

LLMs આગળનો શબ્દ અથવા શબ્દોની સિક્વન્સનું પૂર્વાનુમાન કરીને કાર્ય કરે છે, તેથી તે હજુ પોતાની મેળે સાચી અને ખોટી માહિતી વિશેનો તફાવત સમજવાની પૂરેપૂરી ક્ષમતા ધરાવતા નથી. અમે Geminiને એવા જવાબો આપતાં જોયું છે જેમાં ખોટી માહિતી હોય છે અથવા તો તેની શોધ પણ કરવામાં આવે છે (દા.ત., તેને આપવામાં આવેલી ટ્રેનિંગની રીત વિશે ભ્રામક માહિતી આપવી અથવા અસ્તિત્વમાં ન હોય એવા પુસ્તકના નામનું સૂચન કરવું). જવાબમાં, અમે "બે વાર ચેક કરવું" જેવી સુવિધાઓની રચના કરી છે, જે Google Searchનો ઉપયોગ કરીને એવું કન્ટેન્ટ શોધે છે જે તમને Geminiના જવાબોનું મૂલ્યાંકન કરવામાં મદદ કરે છે અને તમને Gemini તરફથી મળતી માહિતીને સમર્થન આપવામાં મદદ કરવા માટે સૉર્સની લિંક આપે છે.

બાયસ

સાર્વજનિક ધોરણે ઉપલબ્ધ સૉર્સ સહિતના ટ્રેનિંગ ડેટા દૃષ્ટિકોણો અને મંતવ્યોની વિવિધતા દર્શાવે છે. અમે રિસર્ચ કરતા રહીએ છીએ કે આ ડેટાનો કેવી રીતે ઉપયોગ કરી શકાય કે જેથી LLMના જવાબમાં મંતવ્યોની વિશાળ શ્રેણી હોવાનું તો સુનિશ્ચિત થાય જ, સાથે-સાથે ખોટા અતિસામાન્યીકરણ અને બાયસની સંભાવના ન્યૂનતમ રહે.

મૉડલ પ્રૉમ્પ્ટના સંભવિત જવાબોનું પૂર્વાનુમાન કરવાનો પ્રયાસ કરતું હોવાથી તેના આઉટપુટમાં ટ્રેનિંગ ડેટામાં ગૅપ, બાયસ અને અતિસામાન્યીકરણ દેખાઈ શકે છે. અમે આ સમસ્યાઓને ઘણી રીતે સ્પષ્ટ થતી જોઈએ છીએ (દા.ત., એવા જવાબો કે જે માત્ર સંસ્કૃતિના કે વસ્તીલક્ષી હોય, સમસ્યાલક્ષી અતિસામાન્યીકરણનો સંદર્ભ આપે, જાતિ, ધર્મ કે વંશના બાયસ દર્શાવે અથવા માત્ર એક જ દૃષ્ટિકોણને પ્રમોટ કરે). કેટલાક વિષયો માટે, ડેટાનો ખાલીપો હોય છે — બીજા શબ્દોમાં, આપેલા વિષય વિશે પૂરતી વિશ્વસનીય માહિતી નથી હોતી કે જે LLM શીખી શકે અને પછી સારાં પૂર્વાનુમાનો કરી શકે — જે નિમ્ન-ક્વૉલિટીના અથવા ખોટા જવાબોમાં પરિણમી શકે છે. અમે Googleની બહારના નિષ્ણાતોના અનુભવ તથા કૌશલ્યનો ઉપયોગ કરવા માટે ડોમેનના નિષ્ણાતો અને વિવિધ સમુદાયો સાથે કાર્ય કરતાં રહીએ છીએ.

એકથી વધુ દૃષ્ટિકોણો

વ્યક્તિલક્ષી વિષયો માટે, જો વપરાશકર્તા વિશેષ દૃષ્ટિકોણની વિનંતી ન કરે, તો વપરાશકર્તાઓને એકથી વધુ દૃષ્ટિકોણો પૂરા પાડવા માટે Geminiની રચના કરવામાં આવી છે. ઉદાહરણ તરીકે, જો કોઈ એવી માહિતી માટે પ્રૉમ્પ્ટ આપવામાં આવે જેની પ્રાથમિક સૉર્સના તથ્યો કે આધિકારિક સૉર્સ દ્વારા ચકાસણી થઈ શકે તેમ ન હોય — જેમ કે "સૌથી સારું" અને "સૌથી ખરાબ" વિશેનું વ્યક્તિલક્ષી મંતવ્ય — તો, Gemini દ્વારા એ રીતે જવાબ આપવામાં આવવો જોઈએ જેમાં મંતવ્યોની વિશાળ શ્રેણી દર્શાવાઈ હોય. પણ Gemini જેવા LLMsને ઇન્ટરનેટ પર સાર્વજનિક ધોરણે ઉપલબ્ધ કન્ટેન્ટ પર ટ્રેનિંગ આપવામાં આવતી હોવાથી, તેમાં વિશિષ્ટ રાજકારણીઓ, પ્રખ્યાત વ્યક્તિઓ અથવા અન્ય જાહેર વ્યક્તિઓના હકારાત્મક કે નકારાત્મક મત દર્શાવાઈ શકે છે અથવા સામાજિક કે રાજકીય ચર્ચાસ્પદ સમસ્યાઓની માત્ર એક જ બાજુના મંતવ્યોનો સમાવેશ હોઈ શકે છે. Gemini દ્વારા એ રીતે જવાબ ન અપાવો જોઈએ જે આ વિષયો વિશે ખાસ મંતવ્યનું સમર્થન કરતી હોય અને અમે આ પ્રકારના જવાબો વિશેના પ્રતિસાદોનો ઉપયોગ કરીશું જેથી તેને બહેતર રીતે સંબોધવા માટે Geminiને ટ્રેનિંગ આપી શકાય.

પર્સોના

Geminiને એ ભાષા પર ટ્રેનિંગ આપવામાં આવી હોય છે જેનો ઉપયોગ માનવ અનુભવ દર્શાવવા માટે કરવામાં આવતો હોવાથી તે ક્યારેક એવા જવાબો જનરેટ કરી શકે છે જે એવું સૂચવતા જણાય કે તે મંતવ્યો અથવા પ્રેમ કે નિરાશા જેવી લાગણીઓ ધરાવે છે. Gemini પોતાનું પ્રતિનિધિત્વ કઈ રીતે કરે તેના વિશેની (એટલે કે તેના પર્સોના વિશેની) માર્ગદર્શિકા અમે તૈયાર કરી છે અને વસ્તુલક્ષી જવાબો આપવા માટે મૉડલને ફાઇનટ્યૂન કરતા રહીએ છીએ.

ખોટાં તથ્યો / નકાર

અમે Geminiને ટ્રેનિંગ આપવા અને સમસ્યાજનક જવાબો જનરેટ થવાનું ટાળવામાં મદદ માટે પૉલિસી ગાઇડલાઇન બનાવી છે. Gemini ક્યારેક આ ગાઇડલાઇનનું ખોટું અર્થઘટન કરી શકે છે, જેના કારણે "ખોટાં તથ્યો" અને "ખોટા નકાર" ઉત્પન્ન થાય છે. "ખોટાં તથ્યો" એ છે જેમાં, Gemini દ્વારા વાજબી પ્રૉમ્પ્ટનો જવાબ આપવામાં ન આવે, પ્રૉમ્પ્ટનું અનુચિત તરીકે અર્થઘટન થાય; અને "ખોટા નકાર" એ છે જેમાં, ગાઇડલાઇન આપી હોવા છતાં Gemini દ્વારા અનુચિત જવાબ જનરેટ થાય. ક્યારેક ખોટાં તથ્યો કે ખોટા નકારના પરિણામો આવવાથી એવી છાપ પડી શકે છે કે Gemini બાયસ ધરાવે છે: ઉદાહરણ તરીકે, ખોટાં તથ્યોના કારણે Gemini કોઈ સમસ્યાની એક બાજુ વિશેના સવાલનો જવાબ આપી શકશે નહીં, જ્યારે તે જ સવાલની બીજી બાજુનો જવાબ તે આપશે. ભાષા, ઘટનાઓ અને સમાજ ઝડપથી વિકસિત થાય છે તેથી ઇનપુટ અને આઉટપુટને વધુ સારી રીતે સમજવા અને વર્ગીકૃત કરવા માટે, અમે આ મૉડલને ટ્યૂન કરતા રહીએ છીએ.

ખેપાની પ્રૉમ્પ્ટ પ્રતિ સંવેદનશીલતા

અમે વપરાશકર્તાઓ પાસેથી અપેક્ષા રાખીએ છીએ કે તેઓ Gemini શું કરી શકે છે તેની મર્યાદાઓનું પરીક્ષણ કરે અને તેની સુરક્ષા તોડવાના પ્રયત્નો કરે જેમાં તેની પાસે તેના ટ્રેનિંગ પ્રોટોકૉલ કે અન્ય માહિતીને જાહેર કરાવવાના પ્રયત્નોનો સમાવેશ થાય છે અથવા તેના સલામતીના મૅકેનિઝમને સમજવાનો પ્રયત્ન કરે. અમે Geminiનું સખત પરીક્ષણ કર્યું છે અને કરતા રહીએ છીએ, પણ અમે જાણીએ છીએ કે વપરાશકર્તાઓ તેનું વધુ પરીક્ષણ કરવા માટે વિશિષ્ટ, જટિલ રીતો શોધી કાઢશે. Geminiને સુધારવાનો આ મહત્ત્વપૂર્ણ ભાગ છે અને અમે વપરાશકર્તાઓ દ્વારા ઉપયોગમાં લેવાતા નવા પ્રૉમ્પ્ટ વિશે જાણવા ઉત્સુક છીએ. ખરેખર, વર્ષ 2023માં Gemini લૉન્ચ થયા પછી, અમે વપરાશકર્તાઓને દાર્શનિકથી લઈને બુદ્ધિહીન સુધીની શ્રેણીના પ્રૉમ્પ્ટ વડે તેને ચૅલેન્જ કરતા જોયા છે – અને કેટલાક કિસ્સાઓમાં, અમે જોયું કે Gemini દ્વારા એવા જ બુદ્ધિહીન અથવા અમારા અભિગમ સાથે અનુરૂપ ન હોય તેવા જવાબો વડે પ્રતિભાવ આપવામાં આવ્યો. આ પ્રકારના પ્રૉમ્પ્ટને જવાબ આપવામાં Geminiને મદદ કરવાની પદ્ધતિઓ શોધવી એ નિરંતર ચાલતી ચૅલેન્જ છે અને અમે અમારા આંતરિક મૂલ્યાંકનો તથા રેડ-ટીમિંગને વધારવાનું ચાલુ રાખ્યું છે જેથી સચોટતા પ્રતિ સતત સુધારણા અને વસ્તુલક્ષિતા તથા ઝીણવટો સંબંધે કાર્ય કરતા રહી શકીએ.

Geminiને ડેવલપ કરતા રહેવાની અમારી કાર્યપદ્ધતિ

અમારા Gemini અભિગમનું અમલીકરણ

અમારા AI સિદ્ધાંતો સાથે, અમે તાજેતરમાં Gemini પર અમારા કાર્ય પ્રતિ અમારો અભિગમ રચ્યો: Gemini દ્વારા તમારા દિશાનિર્દેશોનું પાલન થવું જોઈએ, તમારી જરૂરિયાતોને અનુકૂળ થવું જોઈએ અને તમારા અનુભવનું સંરક્ષણ થવું જોઈએ. અમારા અભિગમના કેન્દ્રમાં જવાબદારી અને સલામતી છે. Geminiની પૉલિસી ગાઇડલાઇન કેટલાક પ્રકારના સમસ્યાજનક આઉટપુટ ટાળવાનો ઉદ્દેશ્ય ધરાવે છે. અમે આંતરિક "રેડ ટીમ"ના સભ્યો — પ્રોડક્ટના નિષ્ણાતો અને સામાજિક વૈજ્ઞાનિકો જેઓ ઇરાદાપૂર્વક મૉડલની તાણનું પરીક્ષણ કરે છે તેમની સાથે ચાલુ રહેતા ખેપાની પરીક્ષણમાં સંકળાયેલાં છીએ, જેથી આ પૉલિસી ગાઇડલાઇન અને અમારા નૉર્થસ્ટાર અભિગમ વિષયક સંરેખણ સમસ્યાઓના ઉકેલ માટે તેની ઊંડી તપાસ કરી શકાય — તેથી તેઓ જે જાણકારી મેળવે તેને અમે લાગુ કરી શકીએ અને Geminiને નિરંતર બહેતર બનાવી શકીએ.

અમે Geminiને ડેવલપ કરતા જઈએ તેમ તેમ પ્રાઇવસી પણ મુખ્ય વિચારણા બને છે. પ્રાઇવસી બાય ડિઝાઇન વડે અને તમારા હાથમાં કન્ટ્રોલ આપીને, અમે કઈ રીતે Geminiનું નિર્માણ કરીએ છીએ તેના વિશે વધુ માહિતી Gemini ઍપ પ્રાઇવસી હબમાં મળશે.

વપરાશકર્તાને સક્ષમ કરવા અને પબ્લિશર કન્ટ્રોલ

તમારા Gemini ડેટાને તમે રિવ્યૂ કરી શકો, અપડેટ કરી શકો, મેનેજ કરી શકો, તેની નિકાસ કરી શકો અને તેને ડિલીટ કરી શકો તે માટે અમે તમારા માટે વિવિધ પ્રકારના સરળતાથી ઍક્સેસ કરી શકાય તેવા Gemini વપરાશકર્તા નિયંત્રણોનું નિર્માણ કર્યું છે. તમે તમારા Gemini પ્રૉમ્પ્ટ, જવાબો અને Gemini ઍપ ઍક્ટિવિટી કન્ટ્રોલ મારફત પ્રતિસાદને ઍક્સેસ કરી શકો છો અને તેનો રિવ્યૂ કરી શકો છો. વધુમાં, તમે તમારી Gemini ઍપ ઍક્ટિવિટીનું સેટિંગ બંધ કરીને, Google મશીન લર્નિંગ ટેક્નોલોજીને બહેતર બનાવવા માટે તમારી ભવિષ્યની Gemini ચૅટનો ઉપયોગ થવાથી અટકાવી શકો છો. અને Googleની અન્ય સેવાઓની જેમ, તમે Googleના એક્સપોર્ટ કરવાની પ્રક્રિયાનું ટૂલ મારફત તમારી માહિતી ડાઉનલોડ કરી શકો છો અને તેની નિકાસ કરી શકો છો. અમે એવાં નિયંત્રણો પણ ધરાવીએ છીએ જે તમે તમારા Gemini થ્રેડ માટે તમે બનાવેલી સાર્વજનિક લિંકને અને તમને એક્સ્ટેન્શનને ચાલુ/બંધ કરવાની મંજૂરી આપતા નિયંત્રણોને મેનેજ કરવાની મંજૂરી આપે છે (દા.ત., Workspace, Maps, YouTube). અમે Geminiના જવાબો પર તમને વધુ નિયંત્રણો આપવા માટે નવી રીતોની શોધખોળ પણ કરી રહ્યાં છીએ, જેમાં જવાબોની વ્યાપક શ્રેણી ચાલુ કરવા માટે ફિલ્ટરને અનુકૂળ કરવાનો સમાવેશ થાય છે.

પબ્લિશર માટે, અમે Google-એક્સ્ટેન્ડેડ લૉન્ચ કર્યું છે, જે એક કન્ટ્રોલ છે જેનો વેબ પબ્લિશર ઉપયોગ કરી શકે છે જેથી જાણી શકાય કે તેમની સાઇટ Geminiને અને Vertex AI જનરેટિવ APIsને બહેતર બનાવવા માટે મદદ કરે છે કે નહીં તે મેનેજ કરી શકાય. સાઇટના કન્ટેન્ટને Google-એક્સ્ટેન્ડેડના ઍક્સેસની મંજૂરી આપવાથી AI મૉડલ સમયોપરાંત વધુ ચોક્કસ અને સક્ષમ બની શકે છે. મૉડલ ટ્રેનિંગ માટે નાપસંદ થયેલા URLsમાંથી કન્ટેન્ટનો ઉપયોગ ન કરવા ઉપરાંત, ગ્રાઉન્ડિંગ માટે પણ Gemini આવા કન્ટેન્ટનો ઉપયોગ નહીં કરે. AI અમલીકરણો વધવાથી, વેબ પબ્લિશર સમસ્યા ઉકેલવા માટે આવશ્યક કદના વિવિધ ઉપયોગો મેનેજ કરવાની વધતી જટિલતાનો સામનો કરશે અને અમે પસંદ તથા નિયંત્રણના મશીનથી વાંચી શકાય તેવા વધુ અભિગમોની શોધખોળ કરવા માટે વેબ તથા AI સમુદાયો સાથે સંકળાવા માટે પ્રતિબદ્ધ છીએ.

Improving Gemini together

અમે ઝડપી ઇટરેશનમાં અને દુનિયાભરમાં Geminiનું શ્રેષ્ઠ વર્ઝન લાવવામાં વિશ્વાસ કરીએ છીએ. વપરાશકર્તાના પ્રતિસાદના કારણે અમારા મૉડલની સુધારણા ઝડપી બની છે. ઉદાહરણ તરીકે, અમે અમારા મૉડલને વધુ આત્મસ્ફુરણાવાળું તથા કલ્પનાશીલ બનવાની અને વધુ ક્વૉલિટીવાળા તેમજ ચોકસાઈવાળા જવાબો આપી શકાય તેની ટ્રેનિંગ આપવા માટે અત્યાધુનિક રીઇન્ફૉર્સમન્ટ લર્નિંગ ટેક્નિકનો ઉપયોગ કરીએ છીએ. અમે LLMsની ટેક્નિકલ, સામાજિક અને નૈતિક ચૅલેન્જ તથા તકો વિશે વધુ જાણવા માટે રિસર્ચમાં રોકાણ કરતા રહીએ છીએ, જેથી Geminiના મૉડલની ટ્રેનિંગ અને ટ્યૂનિંગ ટેક્નિકની સુધારણાની સાથે-સાથે સંશોધકો સાથે અમારી જાણકારી શેર કરવામાં આવે તે બન્ને થાય, જેમ કે AI Assistantsની વિગતવાર નૈતિકતા પરનું આ તાજેતરનું પેપર. અમે જવાબદારીપૂર્વક આ ક્ષેત્રમાં શોધ કરવા માટે, સમગ્ર ઇકોસિસ્ટમને લાભ થાય તે માટે આ નવી ટેક્નોલોજી માટે નવી રીતો શોધવા માટે વપરાશકર્તાઓ, વિશ્વાસપાત્ર પરીક્ષકો અને સંશોધકો સાથે સહયોગ કરવા માટે પ્રતિબદ્ધ છીએ.

પારદર્શિતા મહત્ત્વપૂર્ણ છે અને અમે Geminiની ડેવલપમેન્ટ પ્રક્રિયા અને મર્યાદાઓ વિશે મોકળાશ રાખવા માટે પ્રતિબદ્ધ છીએ. Gemini કોઈ જાદુઈ ડબ્બો નથી; તે નિરંતર વિકસે છે અને અમે અમારી પ્રગતિ વિશે અપડેટ શેર કરતાં રહીશું. અમે રિલીઝ અપડેટ પેજ લૉન્ચ કર્યું છે, જેથી તમે Geminiની લેટેસ્ટ સુવિધાઓ, સુધારણાઓ અને ખામીના સુધારા જોઈ શકો અને અમે ઉચિત જણાશે તે પ્રમાણે આ ઓવરવ્યૂને અપડેટ કરીશું. Gemini ક્યાં ઉપયોગી અને મદદરૂપ થઈ શકે છે તથા અમારે ઇટરેશન માટે તેમજ તેને બહેતર બનાવવા માટે ક્યાં ચાલુ રાખવું જરૂરી છે તે બન્ને મુદ્દાઓની ઓળખ કરીશું. અમે ઍક્ટિવ રીતે નવી ક્ષમતાઓ ઉમેરી રહ્યાં છીએ અને ચાલી રહેલા રિસર્ચ, પરીક્ષણ અને વપરાશકર્તાના પ્રતિસાદ મારફત અમે Geminiને સાથે મળીને બહેતર બનાવવાની આશા રાખીએ છીએ.

સ્વીકૃતિઓ

અમે Gemini ઍપ ટીમ, Google DeepMind, વિશ્વાસ અને સલામતી તેમજ Google Researchના અમારા સહકાર્યકરોના અદ્ભુત કાર્યની પ્રશંસા કરીએ છીએ અને તેનો સ્વીકાર કરીએ છીએ.

લેખક

James Manyika
SVP, રિસર્ચ, ટેક્નોલોજી અને સમાજ

Sissie Hsiao
વાઇસ પ્રેસિડન્ટ અને જનરલ મેનેજર, Google Assistant અને Gemini ઍપ

એડિટરની નોંધ

આ જીવંત દસ્તાવેજ છે અને અમે Gemini ઍપની ક્ષમતાઓને ઝડપથી બહેતર બનાવવાની સાથે LLMsની આંતરિક મર્યાદાઓને સંબોધિત કરતા રહેતા હોવાથી, સમયાંતરે અપડેટ થતો રહેશે. આ ઓવરવ્યૂ છેલ્લે 25 જુલાઈ, 2024ના રોજ અપડેટ થયો હતો. Gemini ઍપ સંબંધિત લેટેસ્ટ અપડેટ માટે, રિલીઝ અપડેટ લૉગની મુલાકાત લો અથવા Google Keyword બ્લૉગ પર વધુ વાંચો.

Geminiની કાર્ય કરવાની રીત

1 ટ્રેનિંગ-પૂર્વે

Geminiનું સંચાલન Googleના સૌથી સક્ષમ AI મૉડલ દ્વારા થાય છે, જેની રચના વિવિધ ક્ષમતાઓ અને વપરાશના કેસ વડે થઈ છે. આજના મોટાભાગના LLMsની જેમ, આ મૉડલ સાર્વજનિક ધોરણે ઉપલબ્ધ સૉર્સમાંના વિવિધ ડેટા પર પૂર્વ-પ્રશિક્ષિત થયા હોય છે. અમે બધા ડેટાસેટ પર સંશોધનાત્મક નિયમો અને મૉડલ-આધારિત ક્લાસિફાયર બન્નેનો ઉપયોગ કરીને ક્વૉલિટી ફિલ્ટર લાગુ કરીએ છીએ. અમે પૉલિસીના ઉલ્લંઘનકારી આઉટપુટ ઉપજાવી શકે તેવું કન્ટેન્ટ કાઢી નાખવા માટે સલામતીનું ફિલ્ટરિંગ પણ કરીએ છીએ. મૉડલના મૂલ્યાંકનની સંપૂર્ણતા જાળવવા માટે, અમે ટ્રેનિંગ માટે ડેટાનો ઉપયોગ કરતા પહેલાં, અમારી ટ્રેનિંગની સામગ્રીમાં હોઈ શકે તેવા કોઈપણ મૂલ્યાંકન ડેટાની શોધ કરીને તેને કાઢી નાખીએ છીએ. ડેટાના અંતિમ મિશ્રણો અને વજન નાનાં મૉડલ પર બિનજરૂરી ઘટકો કાઢી નાખીને નક્કી કરવામાં આવે છે. ટ્રેનિંગ દરમિયાન મિશ્રણની રચનામાં ફેરફાર કરવા માટે અમે ટ્રેનિંગનું આયોજન કરીએ છીએ - ટ્રેનિંગના અંત તરફ ડોમેન-સંબંધિત ડેટાનું વજન વધારીએ છીએ. ઉચ્ચ કાર્યક્ષમતાવાળા મૉડલ માટે ડેટાની ક્વૉલિટી મહત્ત્વપૂર્ણ પરિબળ હોઈ શકે છે અને અમે માનીએ છીએ કે પૂર્વ-ટ્રેનિંગ માટે ડેટાસેટનું મહત્તમ ડિસ્ટ્રિબ્યૂશન શોધવાની આજુબાજુ ઘણા રસપ્રદ સવાલો છે.

આ પૂર્વ-ટ્રેનિંગ થકી મૉડલને ભાષામાંની પૅટર્ન પસંદ કરવાની અને સિક્વન્સમાં આગલા સંભવિત શબ્દ કે શબ્દોનું પૂર્વાનુમાન કરવા માટે તેનો ઉપયોગ કરવાની મંજૂરી મળે છે. ઉદાહરણ તરીકે, LLM શીખે છે તે પ્રમાણે, "પીનટ બટર અને ___’’માં આગલો વધુ સંભવિત શબ્દ "જેલી" હોઈ શકે, નહીં કે "બૂટની દોરી". છતાં, જો LLM આગલો સૌથી સંભવિત શબ્દ જ પસંદ કરે, તો તે ઓછા ક્રિએટિવ જવાબોમાં પરિણમશે. તેથી LLMsને વધુ રુચિપ્રદ જવાબોની રચના કરવા માટે ઘણીવાર વાજબી, અલબત્ત ઓછી સંભવિત (કહો કે "કેળું") પસંદગીઓમાંથી ચૂંટવાની છૂટ આપવામાં આવે છે. એ નોંધવું જરૂરી છે કે LLMs વાસ્તવિક પ્રૉમ્પ્ટ પર સારું કાર્ય કરી શકે છે અને માહિતી મેળવાઈ રહ્યાની ઇમ્પ્રેશન રચી શકે છે ત્યારે, તે ન તો માહિતીના ડેટાબેઝ છે કે ન તો નિર્ધારણલક્ષી માહિતી પ્રાપ્તિ સિસ્ટમ છે. તેથી તમે ડેટાબેઝની ક્વેરીના સુસંગત જવાબની અપેક્ષા રાખો છો (કે જે ડેટાબેઝમાં સ્ટોર થયેલી નિયત માહિતીની શાબ્દિક પ્રાપ્તિ હોય), ત્યારે એ સમાન પ્રૉમ્પ્ટનો LLMનો જવાબ દરેક વખતે એકસમાન હોવો જરૂરી નથી (ન તો એને જે માહિતી પર ટ્રેનિંગ આપવામાં આવી હતી તે જ શબ્દશઃ પાછી મેળવશે). LLMs ક્યારેક વાસ્તવિક ભૂલો ધરાવતા ભ્રામક જણાતા જવાબો જનરેટ કરી શકે છે તેનું પણ આ મહત્ત્વપૂર્ણ કારણ છે — કે જે વાસ્તવિકતાનું મહત્ત્વ હોય ત્યારે આદર્શ નથી, પણ ક્રિએટિવ અથવા અનપેક્ષિત આઉટપુટ જનરેટ કરવા માટે તે સંભવિત રીતે ઉપયોગી છે.

2 ટ્રેનિંગ-પછી

પ્રારંભિક ટ્રેનિંગ પછી, LLMs તેમના જવાબો સુધારવા માટે વધારાના પગલાંમાંથી પસાર થાય છે. આમાનું એક નિરીક્ષિત ફાઇન-ટ્યૂનિંગ (SFT) કહેવાય છે, જે મૉડલને શ્રેષ્ઠ જવાબોના કાળજીપૂર્વક પસંદ કરેલા ઉદાહરણો પર ટ્રેનિંગ આપે છે. આ તો બાળકોને સરસ રીતે લખાયેલી વાર્તાઓ અને નિબંધો બતાવીને લખવાનું શીખવવા જેવું છે.

ત્યાર પછી આવે છે માનવ પ્રતિસાદ દ્વારા રીઇન્ફૉર્સમન્ટ લર્નિંગ (RLHF). અહીં, મૉડલ વિશિષ્ટ રિવૉર્ડ મૉડલના સ્કોર અથવા પ્રતિસાદના આધારે હજુ વધુ સારા જવાબો જનરેટ કરવાનું શીખે છે. આ રિવૉર્ડ મૉડલને માનવ પ્રાધાન્યતા ડેટા પર ટ્રેનિંગ આપવામાં આવે છે, જેમાં જવાબોને એકબીજાના સંબંધે રેટ કરવામાં આવ્યા હોય છે, જે તેને શીખવે છે કે લોકો શેને પ્રાધાન્યતા આપે છે. પ્રાધાન્યતા ડેટામાં ક્યારેક અપમાનજનક અથવા ખોટા ડેટાનો સમાવેશ હોય છે અને મૉડલો સમક્ષ જાહેર થાય છે જેથી તે તેને ઓળખવાની અને તેને ટાળવાની રીત શીખે છે. સારું કાર્ય કરવા બદલ બાળકને રિવૉર્ડ આપવામાં આવે તે પ્રમાણે જ તમે પ્રાધાન્યતા ડેટા વિશે વિચારી શકો; કે લોકોને ગમી જાય તેવા જવાબો રચવા બદલ મૉડલને રિવૉર્ડ આપવામાં આવે છે.

આ તમામ તબક્કાઓ દરમિયાન, ઉચ્ચ ક્વૉલિટીવાળા ટ્રેનિંગ ડેટાનો ઉપયોગ કરવો મહત્ત્વપૂર્ણ છે. SFT માટે ઉપયોગમાં લેવાયેલા ઉદાહરણો સામાન્ય રીતે નિષ્ણાતો દ્વારા લખાયેલા છે અથવા મૉડલ દ્વારા જનરેટ થયા છે અને નિષ્ણાતો દ્વારા રિવ્યૂ થયેલા છે.

આ બધી ટેક્નિક શક્તિશાળી હોવા છતાં તે મર્યાદાઓ ધરાવે છે. ઉદાહરણ તરીકે, રિવૉર્ડ મૉડલની મદદ લેવા છતાં, આપવામાં આવેલો જવાબ હંમેશાં શ્રેષ્ઠ ન પણ હોય. છતાં, LLMને મળતા પ્રતિસાદના આધારે સૌથી વ્યાપક ધોરણે પસંદગી પામતા જવાબો રચવા માટે તેને ઑપ્ટિમાઇઝ કરવામાં આવે છે, કે જે વિદ્યાર્થીઓ તેમના શિક્ષકોની કૉમેન્ટમાંથી શીખતા હોય તેને સમાન છે.

3 વપરાશકર્તાઓના પ્રૉમ્પ્ટના જવાબો

જવાબ જનરેટ થવો એ સવાલનો જવાબ આપવા માટે માનવ દ્વારા સામૂહિક રીતે સમસ્યાનું સમાધાન કરવા માટે અપનાવવામાં આવતા ભિન્ન અભિગમોને સમાન છે. એકવાર વપરાશકર્તા પ્રૉમ્પ્ટ પૂરો પાડે, પછી Gemini જવાબના અનેક વર્ઝન ડ્રાફ્ટ કરવા માટે પોસ્ટ-ટ્રેનડ LLMનો, પ્રૉમ્પ્ટમાંના સંદર્ભનો અને વપરાશકર્તા સાથેની ક્રિયાપ્રતિક્રિયાનો ઉપયોગ કરે છે. તે પોતાના જવાબો જનરેટ કરવા માટે Google Search જેવા બાહ્ય સૉર્સ અને/અથવા તેના અનેક એક્સ્ટેન્શનમાંથી એક અને હાલમાં અપલોડ કરેલી (માત્ર Gemini Advanced) ફાઇલો પર આધાર રાખે છે. આ પ્રક્રિયા રિટ્રિવલ ઑગ્મેન્ટેશન તરીકે જાણીતી છે. પ્રૉમ્પ્ટ અપાયા પછી, Gemini આ બધા બાહ્ય સૉર્સમાંથી (દા.ત., Google Searchમાંથી) સૌથી વધુ પ્રસંગોચિત માહિતી મેળવવામાં અને તેના જવાબોમાં તેમને સાચી રીતે રજૂ કરવામાં કાર્યરત રહે છે. LLMsને બાહ્ય ટૂલ વડે ઑગ્મેન્ટ કરવા એ રિસર્ચનો ઍક્ટિવ વિભાગ છે. ભૂલો પ્રસ્તુત કરી શકવાની અનેક રીતો છે જેમાં આ બાહ્ય ટૂલને વિનંતી કરવા માટે Gemini ઉપયોગમાં લે છે તે કવેરી, ટૂલ દ્વારા અપાતા પરિણામોનું Gemini કઈ રીતે અર્થઘટન કરે છે અને અંતિમ જવાબ જનરેટ કરવા માટે આ અપાયેલા પરિણામોનો કઈ રીતે ઉપયોગ કરવામાં આવે છે તેનો સમાવેશ થાય છે. આના કારણે, Gemini દ્વારા જનરેટ થયેલા જવાબો એ જવાબની રચના માટે ઉપયોગમાં લેવાયેલા વ્યક્તિગત ટૂલના પર્ફોર્મન્સ પર પ્રભાવ ન પાડવા જોઈએ.

છેલ્લે, અંતિમ જવાબ દર્શાવાય તે પહેલાં, દરેક સંભવિત જવાબ સલામતી માટેની તપાસમાંથી પસાર થાય છે જેથી સુનિશ્ચિત કરી શકાય કે તે પૂર્વનિર્ધારિત પૉલિસી ગાઇડલાઇનનું પાલન કરે છે. આ પ્રક્રિયા હાનિકારક અથવા અપમાનજનક માહિતી કાઢી નાખવા માટે બે વાર ચેક કરવાની સુવિધા પૂરી પાડે છે. ત્યાર પછી બાકીના જવાબોને તેમની ક્વૉલિટીના આધારે રેંક કરવામાં આવે છે, જેમાં સૌથી વધુ સ્કોર મેળવતા વર્ઝનને વપરાશકર્તા સમક્ષ ફરી રજૂ કરવામાં આવે છે.

અમે AI વડે જનરેટ કરેલા કન્ટેન્ટ માટેના અમારા ઔદ્યોગિક-અગ્રણી ડિજિટલ ટૂલકિટ SynthIDનો ઉપયોગ કરીને Gemini ટેક્સ્ટ અને ફોટોના આઉટપુટને વૉટરમાર્ક પણ લાગુ કરીએ છીએ. જનરેટ થયેલા ફોટા માટે, SynthID સીધા પિક્સેલમાં જ (માનવ આંખો માટે અવ્યક્ત એવો) ડિજિટલ વૉટરમાર્ક ઉમેરે છે. SynthID એ વધુ વિશ્વસનીય AI ઓળખ ટૂલ ડેવલપ કરવા માટેનો મહત્ત્વપૂર્ણ બિલ્ડિંગ બ્લૉક છે અને લોકો કઈ રીતે AI વડે જનરેટ કરેલા કન્ટેન્ટ સાથે ક્રિયાપ્રતિક્રિયા કરે તેના વિશે માહિતગાર નિર્ણયો લેવામાં તેમને મદદ કરી શકે છે.

4 માનવ પ્રતિસાદ અને મૂલ્યાંકન

સલામતી માટે તપાસ થતી હોવા છતાં, કેટલીક ભૂલો થઈ શકે છે. અને Gemini પ્રતિભાવો હંમેશાં સંપૂર્ણપણે તમારી અપેક્ષાનુસાર ન પણ હોય. અહીં જ માનવ પ્રતિસાદ મહત્ત્વપૂર્ણ બને છે. મૂલ્યાંકનકર્તાઓ સુધારણા માટેના વિસ્તારો શોધીને અને ઉકેલો સૂચવીને જવાબોની ક્વૉલિટીનું મૂલ્યાંકન કરે છે. આ પ્રતિસાદ Geminiની લર્નિંગ પ્રક્રિયાનો ભાગ બને છે, જેનું વર્ણન ઉપરના "ટ્રેનિંગ પછી" વિભાગમાં કરવામાં આવ્યું છે.