Gemma मॉडल को चलाने के लिए, आपको दो मुख्य फ़ैसले लेने होंगे: 1) आपको Gemma का कौनसा वैरिएंट चलाना है और 2) इसे चलाने के लिए, आपको एआई के किस एक्ज़ीक्यूशन फ़्रेमवर्क का इस्तेमाल करना है? इन दोनों फ़ैसलों को लेने में एक अहम समस्या यह है कि आपके और आपके उपयोगकर्ताओं के पास मॉडल को चलाने के लिए कौनसा हार्डवेयर उपलब्ध है.
इस खास जानकारी से, आपको इन फ़ैसलों के बारे में जानने और Gemma मॉडल का इस्तेमाल शुरू करने में मदद मिलती है. Gemma मॉडल को चलाने का सामान्य तरीका यहां बताया गया है:
- टेस्ट चलाने के लिए कोई फ़्रेमवर्क चुनना
- Gemma का कोई वैरिएंट चुनना
- जनरेटिव एआई और अनुमान लगाने से जुड़े अनुरोधों को पूरा करना
कोई फ़्रेमवर्क चुनें
Gemma मॉडल, नेटवर्क के कई टूल के साथ काम करते हैं. सही विकल्प चुनने के लिए, यह देखना ज़रूरी है कि आपके पास कौनसे हार्डवेयर उपलब्ध हैं (क्लाउड जीपीयू बनाम लोकल लैपटॉप) और आपको कौनसे इंटरफ़ेस का इस्तेमाल करना है (Python कोड बनाम डेस्कटॉप ऐप्लिकेशन).
अपनी ज़रूरत के हिसाब से सबसे सही टूल चुनने के लिए, यहां दी गई टेबल का इस्तेमाल करें:
| अगर आप यह करना चाहते हैं... | सुझाया गया फ़्रेमवर्क | इनके लिए सर्वश्रेष्ठ: |
|---|---|---|
| Chat UI के साथ स्थानीय तौर पर चलाना | - LM Studio - Ollama |
नए लोगों या उन लोगों के लिए जो अपने लैपटॉप पर "Gemini जैसी" सुविधा चाहते हैं. |
| Edge पर बेहतर तरीके से काम करना | - LiteRT-LM - llama.cpp - MediaPipe LLM Inference API - MLX |
कम संसाधनों के साथ, स्थानीय अनुमान लगाने की बेहतर सुविधा. |
| Python में मॉडल बनाना/ट्रेन करना | - JAX के लिए Gemma लाइब्रेरी - Hugging Face Transformers - Keras - PyTorch - Unsloth |
रिसर्चर और डेवलपर, कस्टम ऐप्लिकेशन बना रहे हैं या मॉडल को फ़ाइन-ट्यून कर रहे हैं. |
| प्रोडक्शन / एंटरप्राइज़ में डिप्लॉय करना | - Google Cloud Kubernetes Engine (GKE) - Google Cloud Run - Vertex AI - vLLM |
एंटरप्राइज़-ग्रेड की सुरक्षा और MLOps की सुविधा के साथ, मैनेज किया जाने वाला क्लाउड डिप्लॉयमेंट. |
फ़्रेमवर्क की जानकारी
यहां, Gemma मॉडल को चलाने के लिए गाइड दी गई हैं. इन्हें आपके डिप्लॉयमेंट एनवायरमेंट के हिसाब से कैटगरी में बांटा गया है.
1. डेस्कटॉप और लोकल इन्फ़रेंस (ज़्यादा असरदार)
इन टूल की मदद से, उपभोक्ता हार्डवेयर (लैपटॉप, डेस्कटॉप) पर Gemma को चलाया जा सकता है. इसके लिए, ऑप्टिमाइज़ किए गए फ़ॉर्मैट (जैसे, GGUF) या खास हार्डवेयर ऐक्सलरेटर का इस्तेमाल किया जाता है.
- LM Studio: यह एक डेस्कटॉप ऐप्लिकेशन है. इसकी मदद से, Gemma मॉडल को डाउनलोड किया जा सकता है और इसके साथ चैट की जा सकती है. इसका इंटरफ़ेस इस्तेमाल करने में आसान है. इसके लिए, किसी कोडिंग की ज़रूरत नहीं होती.
- llama.cpp: यह Llama (और Gemma) का एक लोकप्रिय ओपन-सोर्स C++ पोर्ट है. यह सीपीयू और Apple Silicon पर बहुत तेज़ी से काम करता है.
- LiteRT-LM: यह डेस्कटॉप (Windows, Linux, macOS) पर ऑप्टिमाइज़ किए गए
.litertlmGemma मॉडल चलाने के लिए, कमांड-लाइन इंटरफ़ेस (CLI) उपलब्ध कराता है. यह LiteRT (पहले इसे TFLite कहा जाता था) की मदद से काम करता है. MLX: यह फ़्रेमवर्क, खास तौर पर Apple Silicon पर मशीन लर्निंग के लिए डिज़ाइन किया गया है. यह Mac इस्तेमाल करने वाले उन लोगों के लिए सबसे सही है जिन्हें बेहतर परफ़ॉर्मेंस चाहिए.
Ollama: यह एक ऐसा टूल है जो ओपन एलएलएम को स्थानीय तौर पर चलाने में मदद करता है. इसका इस्तेमाल अक्सर अन्य ऐप्लिकेशन को बेहतर बनाने के लिए किया जाता है.
2. Python डेवलपमेंट (रिसर्च और फ़ाइन-ट्यूनिंग)
एआई डेवलपर के लिए स्टैंडर्ड फ़्रेमवर्क. इनकी मदद से ऐप्लिकेशन, पाइपलाइन या ट्रेनिंग मॉडल बनाए जा सकते हैं.
- Hugging Face Transformers: यह मॉडल और पाइपलाइन को तुरंत ऐक्सेस करने के लिए इंडस्ट्री स्टैंडर्ड है.
- Unsloth: यह एलएलएम को फ़ाइन-ट्यून करने के लिए ऑप्टिमाइज़ की गई लाइब्रेरी है. इसकी मदद से, Gemma मॉडल को दो से पांच गुना तेज़ी से ट्रेन किया जा सकता है.साथ ही, इसमें बहुत कम मेमोरी लगती है. इससे, उपभोक्ता जीपीयू (जैसे, Google Colab के मुफ़्त टियर) पर फ़ाइन-ट्यून करना मुमकिन हो जाता है.
- Keras / JAX / PyTorch: ये डीप लर्निंग रिसर्च और कस्टम आर्किटेक्चर लागू करने के लिए मुख्य लाइब्रेरी हैं.
3. मोबाइल और एज डिप्लॉयमेंट (डिवाइस पर)
ऐसे फ़्रेमवर्क जिन्हें एलएलएम को सीधे तौर पर उपयोगकर्ता के डिवाइसों (Android, iOS, वेब) पर चलाने के लिए डिज़ाइन किया गया है. इसके लिए, इंटरनेट कनेक्शन की ज़रूरत नहीं होती. ये अक्सर एनपीयू (न्यूरल प्रोसेसिंग यूनिट) का इस्तेमाल करते हैं.
- LiteRT-LM: यह डिवाइस पर मौजूद एलएलएम को डेवलप करने के लिए पूरी तरह से ओपन-सोर्स फ़्रेमवर्क है. यह बेहतरीन परफ़ॉर्मेंस और बारीक कंट्रोल देता है. साथ ही, Android और iOS पर सीपीयू, जीपीयू, और एनपीयू ऐक्सेलरेटर के लिए सीधे तौर पर काम करता है.
- MediaPipe LLM Inference API: यह क्रॉस-प्लैटफ़ॉर्म ऐप्लिकेशन में Gemma को इंटिग्रेट करने का सबसे आसान तरीका है. यह एक हाई-लेवल एपीआई उपलब्ध कराता है. यह Android, iOS, और वेब पर काम करता है.
4. क्लाउड और प्रोडक्शन डिप्लॉयमेंट
हज़ारों उपयोगकर्ताओं के लिए अपने ऐप्लिकेशन को स्केल करने या कंप्यूटिंग की ज़्यादा क्षमता को ऐक्सेस करने के लिए, मैनेज की गई सेवाएं.
- Vertex AI: Google Cloud का पूरी तरह से मैनेज किया गया एआई प्लैटफ़ॉर्म. एसएलए और स्केलिंग की सुविधा की ज़रूरत वाले एंटरप्राइज़ ऐप्लिकेशन के लिए सबसे सही.
- Google Cloud Kubernetes Engine (GKE): इसका इस्तेमाल, अपने सर्विंग क्लस्टर को व्यवस्थित करने के लिए किया जाता है.
- vLLM: यह एक ऐसा इंजन है जो कम समय में ज़्यादा डेटा प्रोसेस कर सकता है और कम मेमोरी का इस्तेमाल करता है. इसका इस्तेमाल अक्सर क्लाउड डिप्लॉयमेंट में किया जाता है.
पक्का करें कि आपके चुने गए फ़्रेमवर्क में, Gemma मॉडल के डिप्लॉयमेंट के लिए इस्तेमाल किया जाने वाला फ़ॉर्मैट काम करता हो. जैसे, Keras का बिल्ट-इन फ़ॉर्मैट, Safetensors या GGUF.
Gemma का कोई वैरिएंट चुनें
Gemma मॉडल, कई वर्शन और साइज़ में उपलब्ध हैं. इनमें फ़ाउंडेशन या कोर Gemma मॉडल और ज़्यादा खास मॉडल वर्शन शामिल हैं. जैसे, PaliGemma और DataGemma. साथ ही, एआई डेवलपर कम्यूनिटी ने Kaggle और Hugging Face जैसी साइटों पर कई वर्शन बनाए हैं. अगर आपको यह नहीं पता कि किस वैरिएंट से शुरुआत करनी चाहिए, तो पैरामीटर की सबसे कम संख्या वाला, निर्देश के मुताबिक फ़ाइन-ट्यून किया गया (आईटी) Gemma core का नया मॉडल चुनें. इस तरह के Gemma मॉडल को कम कंप्यूटिंग की ज़रूरत होती है. साथ ही, यह अलग-अलग तरह के प्रॉम्प्ट के जवाब दे सकता है. इसके लिए, इसे ज़्यादा डेवलप करने की ज़रूरत नहीं होती.
Gemma का कोई वैरिएंट चुनते समय, इन बातों का ध्यान रखें:
- Gemma core और PaliGemma, CodeGemma जैसे अन्य वैरिएंट फ़ैमिली: Gemma (core) का सुझाव दें. Gemma के मुख्य वर्शन के अलावा, अन्य वैरिएंट का आर्किटेक्चर मुख्य मॉडल जैसा ही होता है. इन्हें खास टास्क को बेहतर तरीके से पूरा करने के लिए ट्रेन किया जाता है. अगर आपका ऐप्लिकेशन या लक्ष्य, Gemma के किसी खास वैरिएंट की विशेषज्ञता के मुताबिक नहीं है, तो सबसे अच्छा तरीका यह है कि आप Gemma के कोर या बेस मॉडल से शुरुआत करें.
- निर्देशों के मुताबिक तैयार किया गया (आईटी), पहले से ट्रेन किया गया (पीटी), फ़ाइन-ट्यून किया गया (एफटी), मिक्स
(मिक्स): आईटी का सुझाव दें.
- निर्देशों के मुताबिक काम करने वाले (आईटी) Gemma के वैरिएंट ऐसे मॉडल हैं जिन्हें इंसानी भाषा में दिए गए अलग-अलग निर्देशों या अनुरोधों का जवाब देने के लिए ट्रेन किया गया है. इन मॉडल वैरिएंट से शुरुआत करना सबसे सही है, क्योंकि ये मॉडल को ट्रेनिंग दिए बिना ही प्रॉम्प्ट के जवाब दे सकते हैं.
- प्री-ट्रेन किए गए (पीटी) Gemma के वैरिएंट ऐसे मॉडल हैं जिन्हें भाषा या अन्य डेटा के बारे में अनुमान लगाने के लिए ट्रेन किया गया है. हालांकि, इन्हें इंसानों के निर्देशों का पालन करने के लिए ट्रेन नहीं किया गया है. इन मॉडल को टास्क को असरदार तरीके से पूरा करने के लिए, अतिरिक्त ट्रेनिंग या ट्यूनिंग की ज़रूरत होती है. ये मॉडल, शोधकर्ताओं या डेवलपर के लिए बनाए गए हैं. ये लोग, मॉडल और उसके आर्किटेक्चर की क्षमताओं का अध्ययन करना या उन्हें डेवलप करना चाहते हैं.
- फ़ाइन-ट्यून किए गए (FT) Gemma के वैरिएंट को आईटी वैरिएंट माना जा सकता है. हालांकि, इन्हें आम तौर पर किसी खास टास्क को पूरा करने या जनरेटिव एआई के किसी खास बेंचमार्क पर बेहतर परफ़ॉर्म करने के लिए ट्रेन किया जाता है. PaliGemma वैरिएंट फ़ैमिली में, कई FT वैरिएंट शामिल हैं.
- मिक्स (मिक्स) Gemma के वैरिएंट, PaliGemma मॉडल के वर्शन हैं. इन्हें अलग-अलग तरह के निर्देशों के साथ ट्यून किया गया है. ये सामान्य इस्तेमाल के लिए सही हैं.
- पैरामीटर: सबसे कम उपलब्ध संख्या का सुझाव दें. आम तौर पर, किसी मॉडल में जितने ज़्यादा पैरामीटर होते हैं वह उतना ही बेहतर होता है. हालांकि, बड़े मॉडल को चलाने के लिए, बड़े और ज़्यादा जटिल कंप्यूट संसाधनों की ज़रूरत होती है. साथ ही, इससे आम तौर पर एआई ऐप्लिकेशन के डेवलपमेंट की प्रोसेस धीमी हो जाती है. अगर आपको लगता है कि Gemma का छोटा मॉडल आपकी ज़रूरतों को पूरा नहीं कर सकता, तो कम पैरामीटर वाला मॉडल चुनें.
- क्वांटाइज़ेशन लेवल: ट्यूनिंग को छोड़कर, हाफ़ प्रिसिशन (16-बिट) का सुझाव दें. क्वांटाइज़ेशन एक मुश्किल विषय है. इसमें यह तय किया जाता है कि डेटा का साइज़ और सटीक जानकारी कितनी होनी चाहिए. साथ ही, जनरेटिव एआई मॉडल को कैलकुलेशन करने और जवाब जनरेट करने के लिए कितनी मेमोरी का इस्तेमाल करना चाहिए. जब किसी मॉडल को ज़्यादा सटीक डेटा के साथ ट्रेन किया जाता है, तो आम तौर पर यह 32-बिट फ़्लोटिंग पॉइंट डेटा होता है. इसके बाद, Gemma जैसे मॉडल को कम सटीक डेटा का इस्तेमाल करने के लिए बदला जा सकता है. जैसे, 16, 8 या 4-बिट साइज़. क्वांटाइज़ किए गए ये Gemma मॉडल, अब भी अच्छी परफ़ॉर्मेंस दे सकते हैं. हालांकि, यह इस बात पर निर्भर करता है कि टास्क कितना मुश्किल है. साथ ही, ये मॉडल कंप्यूट और मेमोरी के संसाधनों का इस्तेमाल काफ़ी कम करते हैं. हालांकि, क्वॉन्टाइज़ किए गए मॉडल को ट्यून करने के लिए टूल सीमित हैं. साथ ही, हो सकता है कि वे एआई डेवलपमेंट के लिए चुने गए फ़्रेमवर्क में उपलब्ध न हों. आम तौर पर, आपको Gemma जैसे मॉडल को पूरी सटीकता के साथ फ़ाइन-ट्यून करना होगा. इसके बाद, नतीजे के तौर पर मिले मॉडल को क्वांटाइज़ करना होगा.
Google के पब्लिश किए गए मुख्य Gemma मॉडल की सूची देखने के लिए, Gemma मॉडल इस्तेमाल करना शुरू करें लेख में दी गई Gemma मॉडल की सूची देखें.
जनरेट करने और अनुमान लगाने के अनुरोधों को पूरा करना
एआई एक्ज़ीक्यूशन फ़्रेमवर्क और Gemma का कोई वैरिएंट चुनने के बाद, मॉडल को चलाना शुरू किया जा सकता है. साथ ही, उसे कॉन्टेंट जनरेट करने या टास्क पूरे करने के लिए प्रॉम्प्ट किया जा सकता है. किसी फ़्रेमवर्क के साथ Gemma को चलाने के तरीके के बारे में ज़्यादा जानने के लिए, कोई फ़्रेमवर्क चुनें सेक्शन में दिए गए लिंक पर जाएं.
प्रॉम्प्ट फ़ॉर्मैट करना
निर्देशों के मुताबिक तैयार किए गए Gemma के सभी वैरिएंट के लिए, प्रॉम्प्ट फ़ॉर्मैट करने से जुड़ी कुछ खास ज़रूरी शर्तें हैं. फ़ॉर्मैटिंग से जुड़ी कुछ ज़रूरी शर्तों को, Gemma मॉडल चलाने के लिए इस्तेमाल किया जाने वाला फ़्रेमवर्क अपने-आप पूरा करता है. हालांकि, प्रॉम्प्ट डेटा को सीधे तौर पर टोकनाइज़र को भेजते समय, आपको कुछ खास टैग जोड़ने होंगे. साथ ही, टैग करने से जुड़ी ज़रूरी शर्तें, इस्तेमाल किए जा रहे Gemma मॉडल के हिसाब से बदल सकती हैं. Gemma के अलग-अलग वर्शन के लिए प्रॉम्प्ट फ़ॉर्मैट करने और सिस्टम के निर्देशों के बारे में जानकारी पाने के लिए, यहां दी गई गाइड देखें: