Ka dy vendime kyçe për t'u marrë kur doni të ekzekutoni një model Gemma: 1) cilin variant të Gemma dëshironi të ekzekutoni dhe 2) cilin kuadër ekzekutimi të IA-së do të përdorni për ta ekzekutuar atë? Një çështje kyçe në marrjen e të dyja këtyre vendimeve ka të bëjë me atë se çfarë hardueri keni në dispozicion ju dhe përdoruesit tuaj për të ekzekutuar modelin.
Ky përmbledhje ju ndihmon të ndërmerrni këto vendime dhe të filloni të punoni me modelet Gemma. Hapat e përgjithshëm për të ekzekutuar një model Gemma janë si më poshtë:
- Zgjidhni një kornizë për ekzekutim
- Zgjidh një variant të Gemma-s
- Ekzekutoni kërkesat e gjenerimit dhe nxjerrjes së përfundimeve
Zgjidhni një kornizë
Modelet Gemma janë të pajtueshme me një sërë kornizash gjeneruese të ekzekutimit të IA-së. Një nga faktorët kryesorë të vendimmarrjes në ekzekutimin e një modeli Gemma është se çfarë burimesh llogaritëse keni (ose do të keni) në dispozicion për të ekzekutuar modelin. Shumica e kornizave të IA-së të pajtueshme kërkojnë pajisje të specializuara, të tilla si GPU ose TPU, për të ekzekutuar një model Gemma në mënyrë efektive. Mjete të tilla si Google Colab mund të ofrojnë këto burime të specializuara llogaritëse në një bazë të kufizuar. Disa korniza ekzekutimi të IA-së, të tilla si Ollama dhe Gemma.cpp , ju lejojnë të ekzekutoni Gemma në CPU më të zakonshme duke përdorur arkitektura x86 ose ARM.
Ja disa udhëzues për ekzekutimin e modeleve Gemma me korniza të ndryshme të kohës së ekzekutimit të AI-së:
- Transformues me Fytyrë Përqafuese
- Ollama
- Biblioteka Gemma për JAX
- Keras
- PyTorch
- API-ja e Inferencës së MediaPipe LLM
- Gemma.cpp
- vLLM
- Google Cloud Vertex AI
- Motori Kubernetes i Google Cloud (GKE)
- Google Cloud Run
Sigurohuni që formati i modelit Gemma të implementimit që synoni të bëni, siç është formati nativ i Keras, Safetensors ose GGUF, mbështetet nga kuadri që keni zgjedhur.
Zgjidh një variant të Gemma-s
Modelet Gemma janë të disponueshme në disa variante dhe madhësi, duke përfshirë modelet themelore ose thelbësore të Gemma, dhe variante më të specializuara të modelit si PaliGemma dhe DataGemma , dhe shumë variante të krijuara nga komuniteti i zhvilluesve të IA-së në faqe të tilla si Kaggle dhe Hugging Face . Nëse nuk jeni të sigurt se me cilin variant duhet të filloni, zgjidhni modelin më të fundit të Gemma me udhëzime thelbësore (IT) me numrin më të ulët të parametrave. Ky lloj modeli Gemma ka kërkesa të ulëta për llogaritje dhe është në gjendje t'i përgjigjet një larmie të gjerë kërkesash pa kërkuar zhvillim shtesë.
Konsideroni faktorët e mëposhtëm kur zgjidhni një variant Gemma:
- Gemma core dhe familje të tjera variantesh si PaliGemma, CodeGemma : Rekomandohet Gemma (core). Variantet e Gemma përtej versionit core kanë të njëjtën arkitekturë si modeli core dhe janë të trajnuara për të performuar më mirë në detyra specifike. Nëse aplikacioni ose qëllimet tuaja nuk përputhen me specializimin e një varianti specifik të Gemma, është më mirë të filloni me një model core ose bazë të Gemma.
- I përshtatur sipas udhëzimeve (IT), i paratrajnuar (PT), i përshtatur imët (FT), i përzier (përzierje) : Rekomandohet IT.
- Variantet e Gemma-s të përshtatura sipas udhëzimeve (IT) janë modele që janë trajnuar për t'iu përgjigjur një sërë udhëzimesh ose kërkesash në gjuhën njerëzore. Këto variante modeli janë vendi më i mirë për të filluar sepse ato mund t'u përgjigjen kërkesave pa trajnim të mëtejshëm të modelit.
- Variantet e para-trajnuara (PT) të Gemma janë modele që janë trajnuar për të nxjerrë përfundime rreth gjuhës ose të dhënave të tjera, por nuk janë trajnuar për të ndjekur udhëzimet njerëzore. Këto modele kërkojnë trajnim ose rregullim shtesë për të qenë në gjendje të kryejnë detyrat në mënyrë efektive dhe janë të destinuara për studiues ose zhvillues që duan të studiojnë ose zhvillojnë aftësitë e modelit dhe arkitekturës së tij.
- Variantet e Gemma-s të rregulluara imët (FT) mund të konsiderohen variante të IT-së, por zakonisht trajnohen për të kryer një detyrë specifike ose performojnë mirë në një pikë referimi specifike të IA-së gjeneruese. Familja e varianteve PaliGemma përfshin një numër variantesh FT.
- Variantet e përziera (të përziera) të Gemma-s janë versione të modeleve PaliGemma që janë akorduar sipas udhëzimeve me një sërë udhëzimesh dhe janë të përshtatshme për përdorim të përgjithshëm.
- Parametrat : Rekomandohet numri më i vogël i disponueshëm . Në përgjithësi, sa më shumë parametra të ketë një model, aq më i aftë është. Megjithatë, ekzekutimi i modeleve më të mëdha kërkon burime llogaritëse më të mëdha dhe më komplekse, dhe në përgjithësi ngadalëson zhvillimin e një aplikacioni të inteligjencës artificiale. Nëse nuk keni përcaktuar tashmë se një model më i vogël Gemma nuk mund t'i plotësojë nevojat tuaja, zgjidhni një me një numër të vogël parametrash.
- Nivelet e kuantizimit: Rekomandohet gjysmë precizioni (16-bit), përveç akordimit . Kuantizimi është një temë komplekse që reduktohet në madhësinë dhe precizionin e të dhënave, dhe rrjedhimisht sa memorie përdor një model gjenerues i IA-së për llogaritjet dhe gjenerimin e përgjigjeve. Pasi një model të trajnohet me të dhëna me precizion të lartë, të cilat zakonisht janë të dhëna me pikë lundruese 32-bit, modele si Gemma mund të modifikohen për të përdorur të dhëna me precizion më të ulët, siç janë madhësitë 16, 8 ose 4-bit. Këto modele të kuantizuara Gemma mund të funksionojnë ende mirë, varësisht nga kompleksiteti i detyrave, duke përdorur dukshëm më pak burime llogaritëse dhe memorieje. Megjithatë, mjetet për akordimin e modeleve të kuantizuara janë të kufizuara dhe mund të mos jenë të disponueshme brenda kornizës suaj të zgjedhur të zhvillimit të IA-së. Zakonisht, duhet të akordoni imët një model si Gemma me precizion të plotë, pastaj të kuantizoni modelin që rezulton.
Për një listë të modeleve kryesore të Gemma-s të publikuara nga Google, shihni " Fillimi me modelet Gemma" , lista e modeleve Gemma.
Ekzekutoni kërkesat e gjenerimit dhe nxjerrjes së përfundimeve
Pasi të keni zgjedhur një kornizë ekzekutimi të IA-së dhe një variant të Gemma-s, mund të filloni të ekzekutoni modelin dhe ta nxitni atë të gjenerojë përmbajtje ose të kryejë detyra. Për më shumë informacion se si të ekzekutoni Gemma-n me një kornizë specifike, shihni udhëzuesit e lidhur në seksionin Zgjidh një kornizë .
Formatimi i menjëhershëm
Të gjitha variantet e Gemma-s të akorduara sipas udhëzimeve kanë kërkesa specifike për formatimin e shpejtë të mesazheve. Disa nga këto kërkesa për formatim trajtohen automatikisht nga kuadri që përdorni për të ekzekutuar modelet Gemma, por kur dërgoni të dhëna të shpejtë direkt në një tokenizues, duhet të shtoni etiketa specifike dhe kërkesat e etiketimit mund të ndryshojnë në varësi të variantit Gemma që po përdorni. Shihni udhëzuesit e mëposhtëm për informacion mbi formatimin e shpejtë të variantit Gemma dhe udhëzimet e sistemit: